Neuer Ki – Ansatz: durch Erinnerung an frühere Erfolge noch bessere Lösungen finden

25. Februar 2021 0 Von Horst Buchwald

New York, 25.2.2021

Viele KI-Systeme nutzen Reinforcement (verstärkendes) Learning, bei dem ein Algorithmus nach jedem Schritt, den er macht, positives oder negatives Feedback zu seinem Fortschritt in Richtung eines bestimmten Ziels erhält und so zu einer bestimmten Lösung ermutigt wird. Diese Technik wurde von der KI-Firma DeepMind verwendet, um AlphaGo zu trainieren, das 2016 einen Weltmeister im Go-Spiel schlug.

Adrien Ecoffet von Uber AI Labs und OpenAI in Kalifornien und seine Kollegen stellten die Hypothese auf, dass solche Algorithmen oft Wege übersehen, die besser wären, doch auf der Jagd nach etwas vielversprechenderem in einen anderen Bereich springen und dadurch die besseren Lösungen übersehen.

„Was macht man, wenn man nichts über seine Aufgabe weiß?“, fragt Ecoffet. „Wenn Sie nur mit den Armen herumfuchteln, ist es unwahrscheinlich, dass Sie jemals einen Kaffee kochen werden.“

Die Forscher lösten das Problem mit einem Algorithmus , der sich alle Pfade merkt, die ein vorheriger Algorithmus beim Versuch, ein Problem zu lösen, genommen hat. Wenn er einen Datenpunkt findet, der nicht korrekt zu sein scheint, geht er zurück zu seiner Speicherkarte und versucht einen anderen Weg.

Während des Spiels speichert die Software Bildschirmausschnitte aus einem Spiel und weiß dadurch, was sie ausprobiert hat. Außerdem gruppiert sie ähnlich aussehende Bilder, um Punkte im Spiel zu identifizieren, zu denen sie als Startpunkt zurückkehren sollte. Diesen neuen Ansatz testeten die Forscher, indem sie Spielregeln und ein Ziel hinzufügten: möglichst viele Punkte erzielen und jedes Mal zu versuchen, eine höhere Punktzahl zu erreichen.

Bei Atari-Spielen ist es normalerweise nicht möglich, zu einem beliebigen Zeitpunkt zurückzukehren, aber die Forscher verwendeten einen Emulator – eine Software, die das Atari-System nachahmt – mit der zusätzlichen Möglichkeit, Statistiken zu speichern und jederzeit neu zu laden. Dies bedeutete, dass der Algorithmus an jedem beliebigen Punkt beginnen konnte, ohne das Spiel von Anfang an spielen zu müssen.

Das Team ließ den Algorithmus eine Sammlung von 55 Atari-Spielen spielen, die zu einem Standard-Benchmark für Reinforcement-Learning-Algorithmen geworden ist. Der Algorithmus schlug die modernsten Algorithmen in diesen Spielen in 85,5 Prozent der Zeit. In einem besonders komplexen Spiel, Montezumas Rache, übertraf der Algorithmus den bisherigen Rekord für Reinforcement-Learning-Software und schlug auch den menschlichen Weltrekord.

Sobald der Algorithmus eine ausreichend hohe Punktzahl erreicht hatte, nutzten die Forscher die von ihm gefundene Lösung, um ein neuronales Netzwerk zu trainieren, das die Strategie repliziert und das Spiel auf die gleiche Weise spielt, ohne dass die Speicherstände mit einem Emulator neu geladen werden müssen. Dieser alternative Ansatz erwies sich als rechenintensiver, da die neuronale Netzwerkversion des Algorithmus beim Lösen jedes Spiels Milliarden von Bildschirmabzügen erstellte.

Peter Bentley vom University College London gab sich überzeugt, dass der Ansatz des Teams, Reinforcement Learning mit einem Archiv von Erinnerungen zu kombinieren, auch für die Lösung von komplexeren Problemen genutzt werden kann. In ihrer Arbeit, die in der Zeitschrift „Nature“ veröffentlicht wurde, erklärten die Forscher, dass sie sich Anwendungen in der Robotik, der Sprachverarbeitung und sogar beim Design neuer Medikamente vorstellen können.

Journal-Referenz: Nature, DOI: 10.1038/s41586-020-03157-9

KategorieHeader