AlphaStar ist jetzt Großmeister im Echtzeit-Strategiespiel

AlphaStar ist jetzt Großmeister im Echtzeit-Strategiespiel

3. November 2019 0 Von Horst Buchwald

AlphaStar ist jetzt Großmeister im Echtzeit-Strategiespiel

New York, 3.11.2019

Alpha Star, ein KI-Agent der Google-Tochter DeepMind, nennt sich jetzt Großmeister im Echtzeit-Strategiespiel. Sie kann jetzt 99,8 % aller menschlichen Spieler in StarCraft II von Blizzard Entertainment im Wettbewerb schlagen. Die Ergebnisse sollen in einem zukünftigen Forschungspapier in der Zeitschrift „Nature“ veröffentlicht werden.

DeepMind sieht den Fortschritt als weiteren Beweis dafür, dass universelles Verstärkungslernen, die maschinelle Lerntechnik, die der Ausbildung von AlphaStar zugrunde liegt, eines Tages genutzt werden kann, um selbstlernende Roboter, selbstfahrende Autos und fortschrittlichere Bild- und Objekterkennungssysteme zu trainieren.

„Die Geschichte des Fortschritts in der künstlichen Intelligenz ist geprägt von Meilensteinleistungen bei Spielen. Seitdem Computer Go, Schach und Poker geknackt haben, ist StarCraft im Konsens zur nächsten großen Herausforderung geworden“, sagte David Silver, ein DeepMind-Prinzipforscher im AlphaStar-Team, in einer Erklärung. „Die Komplexität des Spiels ist viel größer als beim Schach, weil die Spieler Hunderte von Einheiten kontrollieren; komplexer als beim Go, weil es für jeden Zug 10^26 Auswahlmöglichkeiten gibt; und die Spieler haben weniger Informationen über ihre Gegner als beim Poker.“

David Silver, ein DeepMind-Forschungsleiter im AlphaStar-Team, bemerkte, dass die Komplexität von Starcraft II viel größer ist als Schach, „weil die Spieler Hunderte von Einheiten kontrollieren“ und „komplexer als Go, weil es für jeden Zug 10^26 mögliche Optionen gibt“.

Bereits im Januar gab DeepMind bekannt, dass sein AlphaStar-System in der Lage war, während einer vorab aufgezeichneten Session 10 Spiele der besten Pro-Spieler in Folge zu bestreiten, verlor aber gegen den Pro-Spieler Grzegorz „MaNa“ Komincz in einem letzten Spiel, das live online gestreamt wurde. Das Unternehmen verbesserte das System zwischen Januar und Juni kontinuierlich, als es sagte, es würde anfangen, Einladungen anzunehmen, um die besten menschlichen Spieler aus der ganzen Welt zu spielen. Die folgenden Spiele fanden im Juli und August statt, sagt DeepMind.

Die Ergebnisse waren beeindruckend: AlphaStar war zu einem der anspruchsvollsten Starcraft II-Spieler der Welt geworden, aber immer noch nicht ganz übermenschlich. Es gibt etwa 0,2 Prozent der Spieler, die in der Lage sind, sie zu besiegen, aber es wird weitgehend nur eine Frage der Zeit betrachtet, bis sich das System so weit verbessert, dass es jeden menschlichen Gegner zerschmettert.

Dieser Meilenstein in der Forschung ist eng mit einem ähnlichen Meilenstein des in San Francisco ansässigen KI-Forschungsunternehmens OpenAI verbunden, das KI-Agenten unter Verwendung von Verstärkungslernen ausbildet, um das anspruchsvolle Fünf-gegen-Fünf-Mehrspieler-Spiel Dota 2 zu spielen. Bereits im April übertraf die ausgereifteste Version der OpenAI Five Software, wie sie genannt wird, das Weltmeisterteam Dota 2, nachdem sie im vergangenen Sommer nur knapp gegen zwei weniger leistungsfähige E-Sportteams verloren hatte. Der Sprung in den Fähigkeiten von OpenAI Five spiegelt den von AlphaStar wider, und beide sind starke Beispiele dafür, wie dieser Ansatz zur KI ein beispielloses Maß an Spielfähigkeit erzeugen kann.

Ähnlich wie bei OpenAIs Dota 2 Bots und anderen Gameplayern ist das Ziel dieser Art von KI-Forschung nicht nur, Menschen in verschiedenen Spielen zu besiegen , nur um zu beweisen, dass es möglich ist. Stattdessen gilt es zu beweisen, dass – mit genügend Zeit, Aufwand und Ressourcen – eine ausgeklügelte KI-Software den Menschen bei praktisch jeder kognitiven Herausforderung im Wettbewerb, sei es ein Brettspiel oder ein modernes Videospiel, am besten helfen kann.

Es geht auch darum, die Vorteile des Verstärkungslernens aufzuzeigen, einer speziellen Seite des maschinellen Lernens, die in den letzten Jahren große Erfolge verzeichnet hat, wenn sie mit hoher Rechnerpower und Trainingsmethoden wie der virtuellen Simulation kombiniert wird.

Wie OpenAI schult DeepMind seine KI-Agenten gegen Versionen von sich selbst und in einem beschleunigten Tempo, so dass die Agenten Hunderte von Jahren Spielzeit in der Spanne von wenigen Monaten bewältigen können. Das hat es dieser Art von Software ermöglicht, auf Augenhöhe mit einigen der talentiertesten menschlichen Spieler von Go und jetzt mit viel anspruchsvolleren Spielen wie Starcraft und Dota zu stehen.

Dennoch ist die Software auf die enge Disziplin beschränkt, für die sie entwickelt wurde. Der Go-Playing-Agent kann Dota nicht spielen und umgekehrt. (DeepMind ließ eine universellere Version seines Go-Spiel-Agenten seine Hand im Schach versuchen, die er in acht Stunden meisterte.) Das liegt daran, dass die Software nicht mit einfach zu ersetzenden Regelsätzen oder Richtungen programmiert ist. Stattdessen nutzen DeepMind und andere Forschungseinrichtungen das Verstärkungslernen, um die Agenten herausfinden zu lassen, wie sie selbst spielen sollen, weshalb die Software oft neue und wild unvorhersehbare Spielstile entwickelt, die inzwischen von Top-Menschen übernommen wurden.

„AlphaStar ist ein faszinierender und unorthodoxer Spieler – einer mit den Reflexen und der Schnelligkeit der besten Profis, aber Strategien und einem Stil, der völlig einzigartig ist. Die Art und Weise, wie AlphaStar trainiert wurde, mit Agenten, die in einer Liga gegeneinander antreten, hat zu einem Gameplay geführt, das unvorstellbar ungewöhnlich ist; es stellt einen wirklich in Frage, wie viel von StarCraft’s vielfältigen Möglichkeiten Profi-Spieler wirklich erforscht haben“, sagte Diego „Kelazhur“ Schwimer, ein Profi-Spieler des Teams Panda Global, in einer Erklärung. „Obwohl einige der Strategien von AlphaStar auf den ersten Blick seltsam erscheinen mögen, kann ich nicht umhin, mich zu fragen, ob die Kombination all der verschiedenen Spielstile, die sie gezeigt hat, tatsächlich der beste Weg sein könnte, das Spiel zu spielen.“

DeepMind hofft, dass die Fortschritte beim Verstärkungslernen, die durch das Labor und andere KI-Forscher erzielt wurden, irgendwann in der Zukunft weiter verbreitet werden können. Die wahrscheinlichste reale Anwendung für solche Software ist die Robotik, wo die gleichen Techniken KI-Agenten richtig trainieren können, wie sie reale Aufgaben, wie die Bedienung von Roboterhänden, in der virtuellen Simulation ausführen können. Dann, nach der Simulation von Jahren nach Jahren der Motorsteuerung, kann die KI die Zügel eines physischen Roboterarms übernehmen und vielleicht eines Tages sogar Ganzkörperroboter steuern. DeepMind sieht aber auch immer anspruchsvollere – und damit sicherere – selbstfahrende Autos als einen weiteren Ort für seinen spezifischen Ansatz des maschinellen Lernens.