Was ist Reinforcement Learning from Human Feedback (RLHF)?

Benötigte Lesezeit: 7 Minuten

Reinforcement Learning from Human Feedback (RLHF) stellt einen Weg dar, um komplexe Aufgaben zu lösen, ohne sich auf die RL-typische Belohnungsfunktion zu verlassen.

Bestärkendes Lernen aus menschlichem Feedback wurde im Juni 2017 im wissenschaftlichen Papier “Deep reinforcement learning from human preferences (Deep Reinforcement Learning aus menschlichen Vorlieben)” vorgestellt. Die Autoren Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg und Dario Amodei beschreiben darin, wie komplexe Reinforcement-Learning-Aufgaben gelöst werden können, ohne Belohnungsfunktion, mit geringem Feedback und reduzierten Kosten für menschliche Überwachung. Die Studie legte einen der Grundsteine für die spätere Entwicklung der dialogorientierten KI CHAT-GPT. Diese verwendet menschliches Feedback in der Trainingsschleife, um z.B. schädliche, unwahre und/oder voreingenommene Ergebnisse zu minimieren.

Was ist Reinforcement Learning?

Reinforcement Learning (RL, auf Deutsch: bestärkendes Lernen) ist ein Teilbereich des maschinellen Lernens, bei dem ein Agent durch Interaktion mit seiner Umgebung lernt, welche Aktionen er ausführen soll, um bestmögliche Belohnungen zu erzielen. Dies geschieht, indem der Agent Feedback in Form von Belohnungen oder Strafen erhält, die auf der Gesamheit seiner Handlungen basieren. Diese Beziehung zwischen Umgebung, Aktion und Belohnung wird von einer handgeschriebenen (mathematischen) Belohnungsfunktion erfasst. RL findet Anwendung in einer Vielzahl von Bereichen, einschließlich Spielen, Robotik, Finanzen und maschinellem Handel.

>>> Lies hier eine detaillierte Beschreibung von bestärkendem Lernen.

Was ist der Unterschied zwischen bestärkendem Lernen und RLHF?

Wie beim klassischen bestärkenden Lernen, interagiert auch beim RLHF ein Agent über eine Folge von Schritten mit einer Umgebung. Im traditionellen Reinforcement Learning würde die Umgebung eine Belohnung bereitstellen und das Ziel des Agenten wäre es, die Summe der Belohnungen zu maximieren. Beim bestärkenden Lernen aus menschlichem Feedback gibt es stattdessen einen menschlichen Aufseher, der Vorlieben zwischen Trajektorienabschnitten ausdrücken kann. 

Ein Trajektorienabschnitt ist eine Folge von Beobachtungen und Aktionen, etwa wie in einem Film. Ein Fim besteht aus vielen verschiedenen Bildern, die nacheinander gezeigt werden. Jedes Bild zeigt etwas anderes. So ist es auch mit einem Trajektorienabschnitt: Es ist eine Reihe von Bildern oder Schritten, die zusammen eine Geschichte erzählen.

Trajektorie [tʁajɛkˈtoːʁiə], auch Bahnkurve, ein Pfad oder Weg eines Objektes.

(Wikipedia)

In der oben genannten Studie sind Trajektorienabschnitte z.B. mehrere, kurze Videoclips. Menschen bewerten diese Clips und geben an, welchen sie am besten finden, ob sie alle Videos gleich gut finden oder gar keine Bewertung abgeben möchten. Diese menschlichen Vorlieben werden dann in einer Datenbank erfasst. 

Informell ist das Ziel des virtuellen Agenten, Trajektorien zu produzieren, die vom Menschen bevorzugt werden, wobei so wenig Abfragen wie möglich an den Menschen gestellt werden. Der gesamte Trainingsprozess ist ein dreistufiger Feedback-Zyklus zwischen dem Menschen, dem Verständnis des Agenten für das Ziel und dem RL-Training. Diese Methode wird als Alignment (Abstimmung) bezeichnet und stellt sicher, dass KI-Modelle im besten Sinne der Menschheit funktionieren und an menschlichen Zielen ausgerichtet sind.

OpenAI und das Sicherheits-Team von DeepMind entwickelten diesen Ansatz über mehrere Jahre hinweg, um einen Algorithmus zu entwickeln, der menschliche Wünsche versteht. Dabei testeten sie verschiedene Anwendungsfälle, wie z.B. die Zusammenfassung eines Textes zu erstellen. Menschen bewerteten künstlich generierte Zusammenfassungen nach Abdeckung (wie viele wichtige Informationen aus dem ursprünglichen Beitrag abgedeckt sind), Genauigkeit (inwieweit die Aussagen in der Zusammenfassung im Beitrag enthalten sind), Kohärenz (wie einfach die Zusammenfassung für sich allein zu lesen ist) und Gesamtqualität. Von den Ergebnissen dieser Arbeit profitierte schon das Modell GPT-3. Auf ihrer Webseite beschreiben sie den Prozess wie folgt:

Ein KI-Agent handelt zufällig in einem Umfeld. Periodisch werden einem Menschen zwei Videoclips seines Verhaltens gezeigt. Der Mensch entscheidet dann, welcher der beiden Clips am nächsten daran ist, sein Ziel zu erfüllen. In diesem Fall soll z.B. ein grafisches Objekt eine Rückwärtsrolle machen. 

Die KI baut ein Modell des Zieles auf, indem sie die Belohnungsfunktion findet, die die Urteile des Menschen am besten erklärt. Es verwendet dann RL, um zu lernen, wie es das Ziel erreichen kann. Während sein Verhalten besser wird, fragt es weiterhin nach menschlichem Feedback zu Trajektorienpaaren, bei denen es am unsichersten ist und verfeinert sein Verständnis des Ziels weiter.

Abgrenzung zum Inverse Reinforcement Learning (IRL)

Ein Modell für Belohnungen zu entwickeln, das die menschlichen Präferenzen für die Ausführung einer Aufgabe widerspiegelt, ist auch bekannt als Inverse Reinforcement Learning (IRL). Die Schöpfer der Methode, Andrew Ng und Stuart Russell, stellten ihren Ansatz im Papier “Algorithms for Inverse Reinforcement Learning (auf Deutsch: “Algorithmen für umgekehrtes Verstärkungslernen)” im Jahr 2000 vor. Hier wird ein Belohnungsfunktion durch das Beobachten eines Agenten abgeleitet, dessen Verhalten als (ungefähr) optimal eingeschätzt wird. Beispielsweise das Lernen, wie man einen Hubschrauber fliegt, indem man einem Experten zuschaut. IRL folgt jedoch nicht dem RLFH Ansatz des menschlichen Feedbacks, etwa durch das paarweise Vergleichen von Trajektorienpaaren.

Welches Problem versucht RLHF zu lösen?

Stell dir vor, du trainierst eine KI, ein Auto zu fahren: Wir möchten nicht, dass sie lernt, menschliche Fahrer nachzuahmen, sondern was Menschen im Fahrverhalten schätzen und dann danach optimiert.

aus dem Englischen, lesswrong.com

Wer das zugrundelegende Problem besser verstehen möchte, kann sich das wissenschaftliche Papier “Concrete Problems in AI Safety (auf Deutsch: Konkrete Probleme in der KI Sicherheit)” von Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman und Dan Mané durchlesen, welches 2016 veröffentlicht wurde. Zwei der Autoren – Paul Christiano und Dario Amodei sind nur ein Jahr später an der oben genannte RLHF Studie beteiligt. Das Papier thematisiert und benennt Trends in der KI, welche Unfälle maschineller Lernsysteme – insbesondere in RL Umgebungen – fördern können. Als Unfälle gelten unbeabsichtigte aber schädliche Konsequenzen im echten Leben, welche aus einer schlechten Gestaltung von KI-Systemen resultieren. 

Solche Unfälle treten in einem komplexen RL-Umfeld viel eher auf, da der Agent möglicherweise ziemlich raffiniert sein muss oder gar Schaden anrichtet, um seine Belohnung zu erhalten. Angenommen, ein RL-Agent (z. B. ein Reinigungsroboter) soll eine Kiste von einer Seite des Raum zur gegenüberliegenden Seite bewegen. Manchmal ist der effektivste Weg zum Ziel, etwas zu tun, das zerstörerisch ist. Zum Beispiel eine Vase umwerfen, die ihm im Weg steht. Wenn der Agent nur für das Bewegen der Box belohnt wird, wirft er wahrscheinlich die Vase um. Es kann auch passieren, dass er die Belohungsfunktion “hackt”. So könnte der Reinigungs-Roboter etwa seine Sicht einschränken, um erst gar keine Unordnung zu finden, die er säubern müsste. 

Menschliches Feedback beim bestärkenden Lernen hilft, diese Unfälle einzudämmen oder gar ganz zu verhindern. Dies wird besonders dann notwendig, wenn die Komplexität der Umgebung durch Humor (Was ist lustig?), ethische Fragen oder Sicherheits-Aspekte erhöht wird. Es gilt als unmöglich, diese Konzepte fehlerfrei (und damit unfallfrei) in einer mathematischen Funktion auszudrücken. Es macht mehr Sinn, wenn ein Agent diese Werte direkt mit und von Menschen erlernt. Denn Menschen können wesentlich genauere und kontextbezogene Rückmeldungen geben.

Beim traditionellen Reinforcement Learning wird die Belohnungsfunktion von Hand geschrieben. Beim RLHF wird die Belohnungsfunktion erlernt.

Weights&Biases – wandb.ai

Ein Beispiel für einen ethisch komplexen Fall ist der KI-Chatbot Tay, welcher am 23. März 2016 via Twitter an die Öffentlichkeit trat. Er verursachte eine öffentliche Kontroverse, da der Bot anzügliche und beleidigende Tweets verfasste, was den Entwickler Microsoft zwang, den Dienst nur 16 Stunden nach seinem Start wieder abzuschalten. Es ist denkbar, dass Tay mit RLHF gar nicht erst zum Problem-Bot geworden wäre.

Potenziale und Risiken von RLHF

Bestärkendes Lernen aus menschlichem Feedback ist ein beeindruckendes Werkzeug, um schwer zu kalkulierende Werte (Ethik, Moral, Humor…) in Machine Learning Systeme zu integrieren. Damit scheint RLHF das Potenzial zu haben, Vorurteile und Diskriminierung durch intelligente Maschinen zu reduzieren. Auf der anderen Seite erhöht menschliche Intervention das Risiko für Vorurteile und subjektive Beurteilungen, was den Lernprozess des Agenten beeinträchtigen kann. Die Herausforderung besteht somit darin, dass menschliche Lehrer konsistentes, faires und zuverlässiges Feedback geben, was zeitaufwändig sein und erhebliche Schulungen und Fachkenntnisse erfordern kann.

RLHF zeigt, dass positive Nutzererlebnisse und Mensch-Computer-Interaktionen in der KI-Welt immer mehr an Bedeutung gewinnen. Der Erfolg der Zusammenarbeit von Mensch und Maschine wird jedoch nach wie vor vom Menschen entschieden.

Schaue dir die Zusammenfassung des Artikels in diesem Video an:

Das Video wurde mit Hilfe von KI erstellt.

Bild: DALL-E 2

Quellen:

  • wandb.ai/ayush-thakur/RLHF/reports/Understanding-Reinforcement-Learning-from-Human-Feedback-RLHF-Part-1–VmlldzoyODk5MTIx#learning-to-summarize-with-human-feedback
  • lesswrong.com/posts/rQH4gRmPMJyjtMpTn/rlhf#comments
  • openai.com/blog/deep-reinforcement-learning-from-human-preferences/
  • youtube.com/watch?v=2MBJOuVq380
  • ssemblyai.com/blog/how-chatgpt-actually-works/

Tina

Tina Nord ist Marketing-Expertin, Autorin und Sprecherin. Die Kommunikationswirtin beschäftigt sich seit mehr als zehn Jahren mit Content Marketing. Seit 2016 erforscht Tina den Einfluss maschinellen Lernens auf Content und engagiert sich für die Repräsentation und Beteiligung von Frauen an der Entwicklung von KI.

Diese Artikel sind ebenfalls interessant:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert