Suche

Bestärkendes Lernen – interaktive Lerneinheit

Kapitelillustration zur Unterrichtseinheit Machine Learning

Übersicht

Sekundarstufe

Naturwissenschaft und Technik, Mathematik, Informatik

Deutsch

Bestärkendes Lernen am Beispiel einer interaktiven Simulation

Schlüsselwörter: Machine Learning, KI-Anwendungen
Fächer: Informatik, Mathematik, Naturwissenschaften und Technik
Altersstufe der Schüler*innen: ab 14 Jahre
Zeitrahmen: 2 Doppelstunden

Dieses Material ist für selbstorganisiertes Lernen geeignet. Es besteht aus einer problematisierenden Einführung in das Thema Bestärkendes Lernen, einer Anleitung mit Hintergrundwissen zur Simulation und der eigentlichen interaktiven Simulation am Beispiel einer Goldsuche in einer zweidimensionalen Gitterwelt.

Benötigte Hardware/Software:

  • Internetzugang
  • PCs/Laptops/Chromebooks/Tablets

Autor: Samuel Richter, mit einer unterrichtspraktischen Einleitung von Daniel Janssen

Inhaltsübersicht

 

Einführung mit Aufgaben: manuelles Steuern eines Roboters
Bestärkendes Lernen: einen Roboter Erfahrungen sammeln lassen
Anleitungen und Informationen zur Simulation
Simulation Bestärkendes Lernen (externer Link)

 

Zusammenfassung

Wie kann künstliche Intelligenz (im Folgenden als KI abgekürzt) ein so komplexes Spiel wie Go lernen, das wesentlich komplizierter als Schach ist, und dabei sogar die besten Spieler der Welt schlagen? Wie kann eine solche KI es schaffen, Computerspiele bis zum letzten Level fehlerfrei durchzuspielen, und wie ist es möglich, dass Roboter selbstständig Bewegungen wie das Gehen lernen können? Die Antwort lautet: Es handelt sich hierbei um eine ganz bestimmte Art des sogenannten maschinellen Lernens, nämlich um das bestärkende Lernen, das im Englischen als Reinforcement Learning bezeichnet wird. 

Im Themenbereich der künstlichen Intelligenz geht es allgemein darum, wie Maschinen bzw. Computerprogramme (selbstständig) lernen können. Man unterscheidet dabei grob drei Bereiche: das überwachte Lernen, das unüberwachte Lernen und eben das bestärkende Lernen. Letzteres arbeitet mit Belohnungen und Bestrafungen und soll hier an einem ganz konkreten interaktiven Beispiel vorgestellt werden: Es geht um die Fragestellung, wie ein Roboter auf einem 5x5 Felder großen Spielfeld von alleine lernt, Hindernissen auszuweichen und das Zielfeld mit einem versteckten Goldstück zu finden. 

Dies kann in einer interaktiven Simulation ausprobiert und nachvollzogen werden. Einleitend sollen hier einige Vorüberlegungen stattfinden, wie man überhaupt einem Roboter durch Programmieren beibringen könnte, sich automatisch in seiner Spielfeldwelt zu bewegen, und welche Schwierigkeiten das bereits mit sich bringt. Denn so einfach, wie man denken könnte, ist es nicht.

Symbole für neuronale Netze

Die Einheit „Bestärkendes Lernen“ wurde von Samuel Richter entwickelt, der 2024 sein Abitur am Emsland Gymnasium in Rheine absolvierte und als Schüler des Informatik-Leistungskurses der Kooperationsschule Gymnasium Dionysianum das Projekt „Bestärkendes Lernen“ in Form einer besonderen Lernleistung im Rahmen des Abiturs entwickelte. Von der Planung bis zur Umsetzung als interaktive Webanwendung stand für Richter, der nach dem Abitur ein Informatikstudium aufgenommen hat, von Anfang an die Sinnhaftigkeit des Projekts im Vordergrund: eine Anwendung zu schaffen, die nicht zu trivial ist, um als echtes Beispiel für Bestärkendes Lernen zu dienen, aber auch nicht zu komplex, um nicht mehr verstanden zu werden. Da dieses Projekt aus dem Unterricht für den Unterricht entstanden ist, veröffentlichte Richter zusammen mit seinem Informatiklehrer Dr. Daniel Janssen das als kleine Unterrichtssequenz aufbereitete Material bei Science On Stage. Gerade im Hinblick auf den in dieser Zeit neu erarbeiteten Lehrplan für Informatik in der Sekundarstufe I in NRW gewinnt das Thema „Bestärkendes Lernen“ zunehmend an Bedeutung, da es neben dem überwachten und unüberwachten Lernen einen der drei Schwerpunkte markiert, die Einzug in den nordrhein-westfälischen Lehrplan gehalten haben.

© 2023–2025 S. Richter, D. Janssen

Die Nutzung dieses Unterrichtsmaterials ist frei (Creative-Commons-Lizenz CC-BY-SA), der Code des verlinkten interaktiven Elements ist jedoch urheberrechtlich geschützt und keiner freien Lizenz zugeordnet. Die Einsicht in den Code mittels Deobfuskation sowie die Verwendung dieses Codes oder von Auszügen daraus ist nicht gestattet.
 

Einführung mit Aufgaben: einen Roboter auf einem Spielfeld manuell steuern

 

Betrachte das abgebildete Spielfeld. Es enthält einen Roboter, der zum Feld mit dem Gold gesteuert werden soll. Dazu kann er nach oben, unten, rechts und links bewegt werden. Er darf jedoch nicht auf einem Feld mit einem Hindernis landen. Um den Roboter zu steuern, benutzt man die Steuerungspfeile.

Ein 5x5 Felder großen Spielfeld mit Roboterfigur, Goldklumpen und drei Symbolen für Hindernisse

In dem abgebildeten Beispiel gibt es zwei Möglichkeiten für den besten Weg:

Eine Reihe von fünf Pfeilsymbolen

Eine Reihe von fünf Pfeilsymbolen

Mit beiden Lösungen steuert man den Roboter vorbei an den Hindernissen zum Ziel. Es wären auch andere Wege, theoretisch unendlich viele Wege denkbar, den Roboter zum Ziel zu manövrieren. Die beiden abgebildeten Wege sind jedoch optimal, da sie jeweils nur fünf Schritte benötigen.

Manuelles Steuern (1)

Betrachte die folgende Situation und überlege dir, welche Schritte des Roboters nötig wären, um ihn zum Ziel zu führen.

Ein 5x5 Felder großes Spielfeld mit Roboterfigur, Goldklumpen und drei Symbolen für Hindernisse

Benutze insgesamt fünf Pfeile. Du wirst folgende Pfeile zum Teil mehrfach benötigen: oben, rechts, links

Der optimale Weg lautet: 

Eine Reihe von fünf Pfeilsymbolen

Manuelles Steuern (2)

Spielen wir eine weitere Situation durch. Betrachte wiederum die folgende Situation und überlege dir, welche Schritte des Roboters nötig wären, um ihn zum Ziel zu führen.

Ein 5x5 Felder großes Spielfeld mit Roboterfigur, Goldklumpen und drei Symbolen für Hindernisse

Benutze insgesamt sechs Pfeile für eine optimale Lösung. Du wirst folgende Pfeile zum Teil mehrfach benötigen: oben, rechts.

Hinweis: Es gibt mehrere Möglichkeiten.

Es gibt vier verschiedene Möglichkeiten mit sechs Pfeilen. Eine Lösung davon ist:

Eine Reihe von sechs Pfeilsymbolen

Die weiteren Möglichkeiten sind:

Drei Reihen mit je sechs Pfeilsymbolen

Zwischenfazit zum manuellen Steuern

In allen bisherigen Beispielsituationen, die gezeigt wurden, war es möglich, den Roboter durch Pfeilsteuerung zum Gold zu führen. Allerdings waren alle Wege unterschiedlich, und manchmal gab es sogar gleich gute Lösungsalternativen. Selbst wenn man pro Startsituation nur einen einzigen Weg betrachtet, war allen Beispielen gemeinsam, dass jeweils eine ganz andere, sogar unterschiedlich lange Kombination von Pfeilen zum Ziel führte. Und diese Kombination von Pfeilen hing einzig und allein vom Startpunkt des Roboters ab.

Wenn man sich klarmacht, dass der Roboter einzig mit den Pfeilen für die vier Richtungen gesteuert werden kann und ansonsten nur einen Sensor für Hindernis unter mir (verloren) und Gold unter mir (gewonnen) hat, dann merkt man schnell, dass der Roboter gar keinen Weitblick hat, wie wir es haben, wenn wir das Spielfeld betrachten. Einem Menschen, der von außen auf das Spielfeld blickt, ist sofort klar, wohin der Roboter gehen muss. Dem Roboter selbst ist dies jedoch nicht klar. Er muss sich Feld für Feld bewegen oder von außen z. B. durch Programmierung bewegt werden – und dazu gibt es nur die vier Pfeilrichtungen, die ihn lediglich auf sein Nachbarfeld schieben. Dort kann der Roboter einzig und allein prüfen, ob er auf einem Hindernis oder auf dem Gold steht. Er hat darüber hinaus kein Wissen, in welcher Richtung das Gold liegt und welcher Weg optimal ist. 

Nun könnte man auf die Idee kommen, komplizierte Algorithmen zu entwickeln, z. B.: „Bewege dich vor. Falls Hindernis auftaucht, gehe zurück, gehe links, gehe vor, gehe rechts …“, „Falls währenddessen wieder ein Hindernis auftaucht, gehe nochmal zurück, dann rechts ...“, „Wiederhole das Ganze so lange, bis ...“ usw. Das wird aber schnell sehr kompliziert, wenn man das für jede Startsituation erfolgreich bewerkstelligen möchte. Was wäre z. B., wenn das Spielfeld größer wird oder wenn das Spielfeld gar keine Grenzen hat oder sich das Spielfeld in verschiedenen Leveln ändert? Ebenso wäre es eigentlich kaum möglich, für jedes Startfeld den optimalen Weg zu speichern und diese Sammlung an Wegen zu speichern – zumindest wenn wir das Beispiel auf die reale Welt übertragen, in der Spielfelder nicht 5x5 Felder haben, sondern deutlich größer sind. 
Um den letzten Gedankengang zu untermauern, solltest du die nächsten beiden Beispiele absolvieren. 

Manuelles Steuern (3)

Betrachte die folgende Situation, in der sich das Spielfeld geändert hat, und überlege dir, welche Schritte des Roboters nun nötig wären, um ihn zum Ziel zu führen. 

Ein 5x5 Felder großes Spielfeld mit Roboterfigur, Goldklumpen und drei Symbolen für Hindernisse

Benutze insgesamt fünf Pfeile für deine Lösung. Du wirst folgende Pfeile zum Teil mehrfach benötigen: unten, links.

Hinweis: Es gibt mehrere Möglichkeiten. 

Es gibt drei Möglichkeiten, das Gold mit fünf Schritten zu erreichen. Eine Lösung davon ist:

Eine Reihe von fuenf Pfeilsymbolen

Die weiteren Lösungen sind:

Zwei Reihen mit je fuenf Pfeilsymbolen

Manuelles Steuern (4)

Betrachte abschließend die letzte dargestellte Situation. Die Welt ist größer geworden. Und wenn der Roboter (oder die Programmierer*innen, die ihn programmieren) keine Kenntnis davon hat, wie groß die Welt ist, kann man diese auch nicht Zeile für Zeile vom Roboter ablaufen lassen. Kurzum: Das Bild deutet es schon an, dass die Goldsuche sehr schnell sehr kompliziert werden kann. Vielleicht schaffst du es trotzdem, den optimalen Weg für diese Situation zu erkennen?

Ein 6x7 großes Spielfeld mit einem Roboter, einem Goldklumpen und vielen Hindernis-Symbolen

Benutze insgesamt zehn Pfeile. Hinweis: Es gibt mehrere Möglichkeiten.

Eine von mehreren Möglichkeiten wäre:

Eine Reihe von Pfeilsymbolen

Fazit zum manuellen Steuern

Es ist ziemlich schwierig, einen allgemeingültigen Handlungsablauf für den Roboter zu erstellen, der immer funktioniert und den Roboter zielsicher zum Gold führt. In der Informatik nennt man einen solchen Handlungsablauf Algorithmus, und in einer Programmiersprache werden nicht nur Anweisungen wie die Pfeile zum Bewegen des Roboters gegeben, sondern auch Entscheidungsanweisungen (um verschiedene Fälle unterscheiden zu können) und Wiederholungsanweisungen (um bestimmte Aktionen mehrfach wiederholen zu können). Aber auch mit diesen Hilfsmitteln ist es sehr kompliziert und aufwändig, eine erfolgreiche Strategie zu programmieren, die fehlerfrei für alle möglichen Situationen funktioniert. Besser wäre es doch, wenn der Roboter von alleine lernen könnte, was der richtige Weg ist! Dies führt uns direkt zum bestärkenden Lernen

Close search