Was ist bestärkendes Lernen - oder Reinforcement Learning (RL)?

Benötigte Lesezeit: 6 Minuten

Bestärkendes oder verstärkendes Lernen (im Englischen “reinforcement learning” oder kurz RL) ist eine Form des maschinellen Lernens, bei der ein Agent in einer virtuellen Umgebung durch Versuch und Irrtum lernt. Eines der aufregendsten Beispiele für Reinforcement Learning ist der Erfolg beim hochkomplexen Brettspiel “Go”. Das britische Unternehmen DeepMind nutzte RL um AlphaGo zu entwickeln. Ein Computerprogramm, welches 2017 den Weltmeister im Go-Spielen besiegte. Dieser Meilenstein machte bestärkendes Lernen mit einem Schlag zum Superstar der KI-Welt.

“Reinforcement Learning ist neben überwachtem und unüberwachtem Lernen eines von drei grundlegenden Paradigmen des maschinellen Lernens.”
(aus dem Englischen, Wikipedia)

Im Gegensatz zum überwachten Lernen, entfällt beim bestärkenden Lernen das Feedback nach jedem einzelnen Schritt. Stattdessen zählt, ob die gesamte Kombination aus Handlungen, etwa ein vollständiges Spiel, erfolgreich war oder nicht. Der Computer verwendet Versuch und Irrtum, um eigenständig eine Lösung für das Problem zu finden. Er muss also möglichst kreativ sein, um das Ziel – die maximal mögliche Belohnung – zu erreichen. Dabei können parallel viele Spiele und Spielzüge gleichzeitig laufen, sofern die richtige Infrastruktur zur Verfügung steht.

Es gibt zahlreiche Beispiele für RL im echten Leben: Möchte ein Marketing-Experte Neukunden gewinnen, hat er verschiedene Strategien zur Auswahl. Zum Beispiel die Organisation einer Veranstaltung, das Versenden von Produktproben oder eine Email-Marketing Kampagne. Es ist unklar, ob die Zielgruppe lieber ein Geschenk oder eine E-Mail erhalten möchte. Klar ist jedoch das Ziel: der Verkauf eines Produktes. Dies ist die Art von Fragen, die Reinforcement Learning versucht zu lösen: Welche Aktion führt zur ultimativen Belohnung? Amazon verwendet z.B. bestärkendes Lernen um den maximalen Umsatz zu erzielen.

Der Ursprung bestärkenden Lernens

Frühe Untersuchungen des Trial-and-Error-Lernens stammen vom US-amerikanischen Kognitionswissenschaftler und Informatiker Marvin Minsky sowie Belmont Farley and Wesley Clar (1954 am MIT). In seiner Dissertation diskutierte Minsky Computermodelle des Reinforcement Learning und beschrieb seine Konstruktion einer analogen Maschine, die aus Komponenten besteht, die er SNARCs (Stochastic Neural-Analog Reinforcement Calculators) nannte.

Farley und Clark beschrieben eine weitere neuronale Netzwerk-Lernmaschine, die entwickelt wurde, um durch Versuch und Irrtum zu lernen. In den 1960er Jahren wurden die Begriffe „Reinforcement“ und „Reinforcement Learning“ erstmals in der Literatur verwendet (z.B. Waltz und Fu, 1960). Einflussreich war Minskys Aufsatz „Steps Toward Artificial Intelligence“ von 1961, in dem mehrere für das Reinforcement Learning relevante Fragen erörtert wurden, darunter das Verdienst-Zuweisungsproblem: Wie wird die Anerkennung für den Erfolg auf die vielen Entscheidungen verteilt, die möglicherweise getroffen wurden?

Ab den 70er Jahren kombinierten Informatiker wie Harry Klopf und Richard Sutton Trial-and-Error-Lernen mit Tierlerntheorien (etwa wie Mäuse ihren Weg durch ein Labyrinth finden). In den 80er Jahren folgte ein enormes Wachstum in der Forschung zum Reinforcement Learning, vor allem im Teilbereich des maschinellen Lernens. 1992 sorgte der Erfolg von Gerry Tesauros Backgammon-Spielprogramm, TD-Gammon, für zusätzliche Aufmerksamkeit in dem Bereich.

Wie funktioniert RL: Der Markov Entscheidungsprozess

Wer RL verstehen möchte, muss sich mit dem Markov Entscheidungsprozess (MDPs) befassen. Dieser ist ein vereinfachtes Szenario des RL: Eine Handlung kombiniert mit dem Zustand einer Umgebung, bestimmen die Wahrscheinlichkeit, eine bestimmte Belohnung zu erhalten. Diese Umgebungen können oft komplex oder unsicher sein, zum Beispiel, wenn ein Roboter von Boston Dynamics sich in der realen Welt fortbewegen möchte. Tatsächlich ist bestärkendes Lernen extrem populär um solche Maschinen zu trainieren.

“Bei dem Markow-Entscheidungsproblem handelt es sich um ein nach dem russischen Mathematiker Andrei Andrejewitsch Markow benanntes Modell von Entscheidungsproblemen, bei denen der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist.”
(Wikipedia)

→ (A)	→ (A)	+1 (R)
↑ (A)	BLOCKER	-1
S

Angenommen, ein Roboter kann sich in dem oben dargestellten Raum bewegen. In der Mitte befindet sich ein Blocker, an dem der Roboter nicht vorbeikommt. Wenn der Roboter gute Arbeit leistet, landet er im letzten Feld und bekommt eine Belohnung, +1. Wenn der Roboter versagt, bzw im Feld darunter landet, bekommt er eine Bestrafung, -1. Das Ziel ist es, eine Strategie zu finden, um zum Ort der Belohnung zu gelangen.

Dieser Prozess wird durch folgende Bezeichnungen bestimmt:

Staat (s): Die Gesamtheit aller Zustände, auch Zustandsraum genannt.
Zustand (S): Ein Status, den der Roboter (Entscheidungsträger) haben kann. Er kann zum Beispiel im Spiel oder nicht im Spiel sein.
Aktion (A): Dinge, die ein Agent in seiner Umgebung machen kann. Er kann zum Beispiel nach links, rechts, oben und unten gehen.
Übergang (P für engl. passage): Die Wahrscheinlichkeit in Zustand S zu landen, unter der Bedingung eines bestimmten Anfangszustandes, ausgeführter Aktion(en) und dem Zielzustand.
Belohnung (R für engl. revard): Eine Belohnung ist die Funktion eines Zustandes.
Diskontfaktor (ɣ für Gamma): Bestimmt, wie Agenten Belohnungen in ferner Zukunft im Vergleich zu denen in unmittelbarer Zukunft bewerten.

Der Markov-Entscheidungsprozess kann formal beschrieben werden als m = (S, A, P, R, Gamma). Das Ziel des MDP m ist es, eine Richtlinie zu finden, die oft als pi bezeichnet wird und die die optimale langfristige Belohnung liefert.

Richtlinien sind einfach eine Zuordnung jedes Zustands s zu einer Verteilung von Aktionen a.
Für jeden Zustand s sollte der Roboter mit einer bestimmten Wahrscheinlichkeit Aktion a ausführen.
Alternativ können Richtlinien auch deterministisch sein (d.h. der Roboter wird im Zustand s die Aktion a ausführen).

Ein zentraler Bestandteil von Markov-Entscheidungsprozessen ist die Bellman-Gleichung. Sie hilft bei der Bestimmung der maximale Belohnung, die ein Roboter erhalten kann, wenn er im aktuellen Zustand und in allen folgenden Zuständen die optimale Entscheidung trifft.

Wer sich für die grundlegenden mathematischen Einzelheiten interessiert, dem empfehle ich dieses unterhaltsame YouTube Video (Englisch):

Vor- und Nachteile des bestärkenden Lernens

Pro

Ideal für das Lösen komplexer Probleme.
RL ist dem Lernen von Menschen sehr ähnlich. Daher ist es nahe an der Perfektion.
RL kann nützlich sein, wenn das Sammeln von Informationen ausschließlich über die Interaktion mit der Umgebung möglich ist.
Reinforcement Learning Algorithmen halten ein Gleichgewicht zwischen Exploration und Exploitation aufrecht. Exploration ist der Prozess, verschiedene Dinge auszuprobieren, um zu sehen, ob sie besser sind als das, was zuvor versucht wurde. Ausbeutung ist der Prozess des Ausprobierens der Dinge, die in der Vergangenheit am besten funktioniert haben. Andere Lernalgorithmen führen diesen Ausgleich nicht durch.

Contra

Nich geeignet für simple Probleme.
Reinforcement Learning benötigt viele Daten und viele Berechnungen. Es ist datenhungrig. Deshalb funktioniert es für Spiele so gut, da man diese immer wieder spielen kann und so viele Daten generiert.
Reinforcement Learning geht davon aus, dass die Welt markovisch ist, was nicht der Fall ist. Das Markovasche Modell beschreibt eine Abfolge möglicher Ereignisse, bei denen die Wahrscheinlichkeit jedes Ereignisses nur von dem Zustand abhängt, der beim vorherigen Ereignis erreicht wurde.

Fazit: Bestärkendes Lernen ist der sichere Weg zur allgemeinen künstlichen Intelligenz, laut einem Papier, das im Sommer 2021 beim Peer-Review-Journal für künstliche Intelligenz eingereicht wurde. Wissenschaftler des britischen KI-Labors DeepMind argumentieren darin, dass Intelligenz und die damit verbundenen Fähigkeiten nicht aus der Formulierung und Lösung komplizierter Probleme entstehen, sondern durch Festhalten an einem einfachen, aber wirkungsvollen Prinzip: Belohnungsmaximierung.

“Wir betrachten eine alternative Hypothese: dass das allgemeine Ziel der Maximierung der Belohnung ausreicht, um ein Verhalten zu fördern, das die meisten, wenn nicht alle Fähigkeiten aufweist, die in der natürlichen und künstlichen Intelligenz untersucht werden (…)”
David Silver, Satinder Singh, Doina Precup, Richard S.Sutton

Obwohl andere KI-Experten diese Theorie mit Skepsis betrachten, hat sie die Popularität von RL weiter gesteigert. Es kann mit Spannung erwartet werden, ob die Hypothese von Sutton und Co. durch kommende Generationen von Wissenschaftlern belegt werden kann. Bis dahin ist ein grundlegendes Verständnis des Trial-and-Error-Lernens nicht nur im alltäglichen Leben wertvoll.

>>> Lies hier eine detaillierte Beschreibung von bestärkendem Lernen aus menschlichem Feedback (auf Englisch: Reinforcement Learning from Human Feedback, kurz RLHF).

Quellen:

deepsense.ai/what-is-reinforcement-learning-the-complete-guide/
venturebeat.com/2021/06/09/deepmind-says-reinforcement-learning-is-enough-to-reach-general-ai/
MIT edx
sciencedirect.com/science/article/pii/S0004370221000862
Bild: DALLE 2

Was ist bestärkendes Lernen – oder Reinforcement Learning (RL)?

Der Ursprung bestärkenden Lernens

Wie funktioniert RL: Der Markov Entscheidungsprozess

Vor- und Nachteile des bestärkenden Lernens

Pro

Contra

Tina

Diese Artikel sind ebenfalls interessant:

Was ist Künstliche Intelligenz?

Was ist DALL·E 2?

Was ist Robotik?

Schreibe einen Kommentar Antworten abbrechen