Reinforcement Learning ist die Form des maschinellen Lernens (Machine Learning), an die jeder Mensch denkt, wenn von Künstlicher Intelligenz erzählt wird. Die akkurate deutsche Übersetzung für Reinforcement Learning lautet Bestärkendes Lernen. Denn anders als überwachtes und unüberwachtes maschinelles Lernen ist Reinforcement Machine Learning eine Sammlung von Lernalgorithmen, die iterativ aus dem Durchführen von Aktionen in einer Umgebung lernen, indem die Reaktion der Umgebung beobachtet wird.
Der Kreislauf des bestärkenden Lernens
Reinforcement Machine Learning umfasst Lernalgorithmen, die ein Modell erstellen, der als Prädiktionsalgorithmus fungiert. Der Prädiktionsalgorithmus wird im Reinforcement Learning als sogenannte Policy bezeichnet. Der Lernalgorithmus interagiert dabei mit einer sogenannten Umgebung oder Umwelt (Environment), die entweder eine speziell für diesen Lernvorgang künstlich erzeugt oder simuliert wurde oder die tatsächliche Umwelt ist, in der auch wir Menschen leben. Eine Umgebung kann beispielsweise ein physisch vorhandener Raum speziell für den Lernalgorithmus für kontrollierte Situationsszenarien sein oder beispielsweise der öffentliche Straßenverkehr. Eine Environment kann jedoch auch eine Computer-Simulation oder etwa ein Video-Spiel sein.
Besonders Leistungsfähig zeigt sich Deep Reinforcement Learning, in dem die Policy über ein tiefes künstliches neuronales Netz (Deep Learning) realisiert wird. Dieses übernimmt als Prädiktor in der Regel eine Klassifikation, um die besten Aktionen (z. B. Bewegung nach rechts, links, hoch, runter oder z. B. kaufen oder verkaufen) vorherzusagen. Für komplexere und stetige Aktionsräume übernimmt die Policy Regressionen über den vermuteten Grad der Handlung (z. B. 10° nach rechts, 0° nach links, 5,6° nach oben).
Der Lernalgorithmus interagiert mit der Umgebung indem er Aktionen in dieser durchführt und dieselbige dabei beobachtet. Die Umgebung reagiert mit einer Belohnung (Bestärkung), die entweder direkt gegeben wird oder aber von dem Lernalgorithmus als solche interpretiert werden muss. Dabei muss nicht jede Aktion sofort mit einer positiven oder negativen Belohnung quittiert werden.
Unterschied zum Supervised Machine Learning
Reinforcement Learning ist ähnlich zum Supervised Machine Learning, denn beide lernen über eine Vorgabe. Der wesentliche Unterschied ist, dass diese Vorgabe (labeled data) im Supervised Machine Learning bereits als Historie vorhanden sein muss. Es müssen also Daten im Vorfeld gesammelt und mit Zielwerten „beschriftet“ worden sein. Beim Reinforcement Learning hingegen liegt der Voraufwand in der Herstellung der realen oder simulierten Umgebung. Die Vorgaben entstehen über die Bestärkung in eine bestimmte Richtung und werden von der Umgebung im Kontext der Aktionsausübung des Lerners erst realisiert. RL ist also sehr viel interaktiver im Lernvorgang.
Es gibt jedoch noch weitere Eigenschaften, die gegenüber Supervised ML herausstechen. Durch die Ausübung von Handlungen (Aktionen) in der Umgebung ist es ferner möglich, eine Balance zwischen Exploitation und Exploration zu finden. Die Exploitation bedeutet, einfach der Policy zu folgen (=> Aktion auswählen mit der höchsten Erfolgswahrscheinlichkeit in Richtung der positiven Belohnung). Das kann dazu führen, dass der Algorithmus in Lernschleifen gerät oder aber überangepasst (Overfitting) wird. Eine Exploration zu einem gewissen Grad stell sicher, dass auch mal zufällige Aktionen bzw. zufällige Aktionsmuster ausgewählt werden, die etwas mehr Innovation in den Lernprozess bringen und die Wahrscheinlichkeit für Überanpassung verringert.
Sogenannte Off-Policy Verfahren des Reinforcement Learning nutzen neben der Policy – dem eigentlichen Prädiktor zur Selektion von Aktionen im Aktionsraum – auch eine Wertefunktion (Value Function). Diese kann eine spezifischer Schätzalgorithmus sein (z. B. im Deep Q Network mit einer Q-Funktion über die Bellmann-Formel) oder über ein eigenes neuronales Netz zum Prädiktor über den Wert eine Situation oder eines Zustands-Aktions-Paares. Dann handelt es sich um einen Doppel-Lernalgorithmus des Actor-Critic-Verfahrens, bei dem die Policy (ein Netz) die besten Aktionen vorhersagt [Actor] und eine Wertfunktion (zweites Netz) die Situation im Hinblick auf Erfolgschancen bewertet [Critic].
On-Policy-Verfahren des Reinforcement Learnings sind hingegen sehr nahe dran am Supervised Machine Learning und unterscheiden sich im Grunde nur durch das direkte Setzen von Aktionen in der Umgebung vom klassischen unüberwachten maschinellen Lernen.
Anwendungsfälle von Reinforcement Learning
Nachfolgend eine Auflistung einiger Anwendungsfälle von Reinforcement Learning und im Kontext, was den Unterschied zum Supervised Machine Learning ausmacht.
System- und Maschinenoptimierung
Die Optimierung von Maschinen und anderen Systemen (z. B. Fertigungsinseln oder ganze Fabriksysteme) sind eines der Paradebeispiele für Reinforcement Learning, denn Maschinen sind Systeme, die Daten generieren und selbst über Daten angesteuert werden können. Der RL-Algorithmus kann aus der Interaktion mit der Maschine lernen, wie in einem Computerspiel. Dieses Verfahren lässt sich auch auf andere Systeme übertragen. Bestärkendes maschinelles Lernen findet daher auch besonders gut seinen Zugang in die Produktentwicklung, da auch Endkundenprodukte optimiert werden können.
Im Gegensatz zu überwachtem maschinellen Lernen, für die erstmal etliche Datenhistorien über alle Maschinensensordaten und Maschinenzustände gesammelt werden mussten, wird beim Reinforcement Learning eine Umgebung aufgebaut, die die Maschine darstellt. Über Sensoren und Steuereinheiten interagiert das Lernsystem mit dieser Maschine, die damit zur Environment wird. Und das Lernsystem kann auch neue Kombinationen von Aktionen finden (Exploration), auf die bisher kein Mensch gekommen ist und somit in einer Datenhistorie von vergangenen Maschinendurchläufen nicht zu finden sind.
Während im Supervised ML viele Maschinen gleichzeitig unter verschiedenen Szenarien über viele Durchläufe erst Daten generieren müssen, ist die Rüstzeit im RL durch den Aufbau der Umgebung zu finden, mit der das Lernsystem interagieren kann. Die Umgebung kann auch eine Simulation sein. In der Praxis wird oftmals mit einer Simulation angelernt und erst später auf eine reale Maschine gewechselt.
Robotik und Autonomes Fahren
Im Grunde sind diese Anwendungsfallkategorie eine speziellere Form der Maschinenoptimierung. Sowohl Roboter als auch (teil-)autonom fahrende Fahrzeuge lernen über Reinforcement Learning ihre Feinmotorik. Diese Systeme sind immer hybride KI, die mit festen Regelwerken über eigene Instinkte verfügen (z. B. wenn Radarsensoren ein Hindernis bei bestimmter Geschwindigkeitslimits anzeigen, sofort bremsen), die jedoch die komplexesten Situationen über das Lernsystem meistern.
Hier kurz erwähnt sei auch das Training von virtuellen Bots in Computerspielen oder anderen Computerprogrammen.
ChatBots
Besonders gute ChatBots sind immer Reinforcement Learner, die den menschlichen Interaktionspartner als Umgebung betrachten, mit der interagiert wird und der die Belohnung ausschüttet. Auch das allseits bekannte ChatGPT ist ein Produkt des Reinforcement Learning.
Handelssysteme für Finanzen, Material und Marketing
Handel ist die Kernfunktion der Wirtschaft und findet in vielerlei Hinsicht statt. Eine Form ist der Handel mit Materialien und Produkten. Was für das eine Unternehmen ein Verkauf darstellt, ist für das andere Unternehmen ein Kauf. Der operative Einkauf in Unternehmen der produzierenden Industrie ist ein komplexes System, das Parameter wie Preise und Margen sowie Nachfrage, Lieferzeiten und Verfügbarkeiten aufeinander abstimmen muss. Dieses Spiel ist durch einen Reinforcement Lerner zu bewältigen.
Ähnliche Anwendungsfälle ist die automatisierte Platzierung von Anzeigen auf Handels- und Werbeplattformen im Marketing, die automatisierte Preisbildung (Dynamic Pricing) von Waren, Dienstleistungen und von Finanzprodukten sowie der automatisierte Handel von Wertpapieren und Kryptowährungen (Algorithmic Trading).
Reinforcement Learning ist für die Handelsoptimierung besonders geeignet, die direkt aus der Wirkung von Aktionen (z. B. Kaufen, Verkaufen) gelernt werden kann. Während Supervised Learning nur indirekt aus Historien herauslernt (und die Wirkung für das Handeln noch extra evaluiert werden muss) und auch nur aus den Fällen, die in dieser Historie zu finden sind, probiert das bestärkende Lernen die Aktionen (mit Exploitation und Exploration) aus. Reinforcement Learning beinhaltet die Validierung der Handlungswirkung bereits, denn sie ist Teil des Lernvorgangs.
Sie suchen den Einstieg in KI für Unternehmen? Dann zögern Sie nicht und neben unverbindlich Kontakt mit uns aus!
DATANOMIQ ist der herstellerunabhängige Beratungs- und Service-Partner für Business Intelligence, Process Mining und Data Science. Wir erschließen die vielfältigen Möglichkeiten durch Big Data und künstliche Intelligenz erstmalig in allen Bereichen der Wertschöpfungskette. Dabei setzen wir auf die besten Köpfe und das umfassendste Methoden- und Technologieportfolio für die Nutzung von Daten zur Geschäftsoptimierung.