Künstliche Intelligenz steht vor einer „Reproduzierbarkeitskrise“
20. September 2019Künstliche Intelligenz steht vor einer „Reproduzierbarkeitskrise“
New York, 21.9.2019
Vor einigen Jahren half Joelle Pineau, eine Informatikprofessorin an der McGill University, ihren Schülern bei der Entwicklung eines neuen Algorithmus, als sie aus der Spur gerieten. Ihr Labor untersucht Verstärkungslernen, ein Zweig der künstlichen Intelligenz, der unter anderem dazu dient, virtuellen Charakteren zu helfen , sich selbst beizubringen, wie man sich in virtuellen Welten bewegt. Es ist eine Voraussetzung für den Bau autonomer Roboter und Autos. Pineau’s Schüler hofften, das System eines anderen Labors verbessern zu können. Aber zuerst mussten sie es wieder aufbauen. Doch ihr Design blieb aus unbekannten Gründen hinter den versprochenen Ergebnissen zurück. Die Studenten versuchten es mit einigen „kreativen Manipulationen“, die nicht in der Arbeit des anderen Labors vorgesehen waren. Und siehe da, das System begann zu funktionieren. Solche Glücksfälle seien ein Symptom für einen beunruhigenden Trend, so Pineau gegenüber „Wired“.
Neuronale Netze werden oft als Black Boxes bezeichnet, weil sie so geheimnisvoll funktionieren. In der Regel bedarf es subtiler Optimierungen, damit sie gute Leistungen erbringen . Weil die Netzwerke größer und komplexer, die zu verarbeitenden Datensätze riesig sind, wird die Replikation dieser Modelle teuer, wenn nicht gar unmöglich für alle außer den am besten finanzierten Labors.
„Ist das überhaupt noch Forschung?“ fragt Anna Rogers, eine Forscherin für Maschinenlernen an der University of Massachusetts. „Es ist nicht klar, ob sie die Überlegenheit Ihres Modells oder Ihres Budgets demonstrieren.“
Pineau versucht, die Standards zu ändern. Sie ist die Leiterin der NeurIPS, eine führende Konferenz für künstliche Intelligenz. Sie bittet die Forscher nun, eine „Checkliste zur Reproduzierbarkeit“ einzureichen, die Elemente enthält, die auf den Papieren weggelassen werden, wie die Anzahl der Modelle, die vor der Auswahl des „besten“ Modells trainiert wurden, die verwendete Rechenleistung und Links zu Code und Datensätzen.
Die Idee, so Pineau, sei es, die Forscher zu ermutigen, eine Roadmap anzubieten, damit andere ihre Arbeit nachahmen können weil selbst die erfahrensten Forscher nicht wissen, wie sie arbeiten. Die Replikation dieser KI-Modelle ist nicht nur wichtig, um neue Forschungswege zu identifizieren, sondern auch, um Algorithmen zu untersuchen, die die menschliche Entscheidungsfindung erweitern und in einigen Fällen ersetzen.
Auch andere greifen das Problem auf. Forscher bei Google haben so genannte „Modellkarten“ vorgeschlagen, um zu erläutern, wie Maschinenlernsysteme getestet wurden, einschließlich der Ergebnisse, die auf mögliche Verzerrungen hinweisen. Andere haben versucht zu zeigen, wie fragil der Begriff „State of the Art“ ist, wenn Systeme, die für die in Rankings verwendeten Datensätze optimiert sind, in anderen Kontexten lose sind. Letzte Woche haben Forscher des Allen Institute for Artificial Intelligence, kurz AI2, ein Papier veröffentlicht, das darauf abzielt, die Checkliste für die Reproduzierbarkeit von Pineau auf andere Teile des experimentellen Prozesses zu erweitern. Sie nennen es „Zeige deine Arbeit“.
„Dort anzufangen, wo jemand aufgehört hat, ist so schmerzhaft, weil wir den Versuchsaufbau nie vollständig beschreiben“, sagt Jesse Dodge, ein AI2-Forscher, der die Forschung mitverfasst hat. „Die Leute können nicht reproduzieren, was wir getan haben, wenn wir nicht darüber reden, was wir getan haben.“ Es ist eine Überraschung, fügt er hinzu, wenn die Leute auch nur grundlegende Details darüber berichten, wie ein System gebaut wurde.
Manchmal fehlen grundlegende Informationen, weil sie proprietär sind – ein Problem, das speziell für Industrielabors besteht. Aber es ist öfter ein Zeichen dafür, dass das Feld nicht mit den sich ändernden Methoden Schritt hält, sagt Dodge. Vor einem Jahrzehnt war es einfacher zu sehen, was ein Forscher geändert hat, um seine Ergebnisse zu verbessern. Neuronale Netze sind dagegen heikel; um die besten Ergebnisse zu erzielen, müssen oft Tausende von kleinen Knöpfen gestimmt werden, was Dodge eine Form der „schwarzen Magie“ nennt. Die Auswahl des besten Modells erfordert oft eine große Anzahl von Experimenten. Die Magie wird schnell teuer.
Selbst die großen Industrielabore, die über die Ressourcen verfügen, um die größten und komplexesten Systeme zu entwerfen, haben Alarm ausgelöst. Als Facebook versuchte, AlphaGo zu replizieren, das von Alphabets DeepMind entwickelte System, um das alte Spiel von Go zu meistern, schienen die Forscher von der Aufgabe erschöpft. Die enormen Rechenanforderungen – Millionen von Experimenten, die auf Tausenden von Geräten über Tage hinweg laufen, kombiniert mit nicht verfügbarem Code – machten das System „sehr schwierig, wenn nicht gar unmöglich, zu reproduzieren, zu studieren, zu verbessern und zu erweitern“, schrieb sie in einem im Mai veröffentlichten Papier. (Das Facebook-Team war schließlich erfolgreich.)
Die AI2-Forschung schlägt eine Lösung für dieses Problem vor. Die Idee ist, mehr Daten über die durchgeführten Experimente zu liefern. Sie können immer noch das beste Modell melden, das Sie nach z.B. 100 Experimenten erhalten haben – das Ergebnis, das als „State of the Art“ bezeichnet werden könnte -, aber Sie würden auch den Leistungsumfang melden, den Sie erwarten würden, wenn Sie nur das Budget hätten, es 10 Mal oder nur einmal auszuprobieren.
Der Punkt der Reproduzierbarkeit, so Dodge, ist nicht, die Ergebnisse exakt zu replizieren. Das wäre angesichts der natürlichen Zufälligkeit in neuronalen Netzen und Variationen in Hardware und Code nahezu unmöglich. Stattdessen soll eine Roadmap angeboten werden, um die gleichen Schlussfolgerungen wie bei der ursprünglichen Forschung zu ziehen, insbesondere wenn es darum geht, zu entscheiden, welches Maschinenlernsystem für eine bestimmte Aufgabe am besten geeignet ist.
Die Unterschiede in den Methoden sind zum Teil der Grund, warum die NeurIPS-Reproduzierbarkeitscheckliste freiwillig ist. Ein Stolperstein, insbesondere für Großlabors, sind proprietäre Codes und Daten. Wenn beispielsweise Facebook mit Ihren Instagram-Fotos recherchiert, gibt es ein Problem bei der öffentlichen Nutzung dieser Daten. Ein weiterer Knackpunkt ist die klinische Forschung mit Gesundheitsdaten. „Wir wollen nicht dazu übergehen, Forscher von der Gemeinschaft auszuschließen“, sagt sie.
Es ist schwierig , Reproduzierbarkeitsstandards zu entwickeln, die funktionieren, ohne die Forscher einzuschränken, vor allem, wenn sich die Methoden schnell weiterentwickeln. Aber Pineau ist optimistisch. Eine weitere Komponente der NeurIPS-Reproduzierbarkeit ist eine Herausforderung, die darin besteht, andere Forscher zu bitten, akzeptierte Papiere zu replizieren. Im Vergleich zu anderen Bereichen, wie den Biowissenschaften, in denen alte Methoden schwer absterben, ist das Feld offener dafür, Forscher in solche sensiblen Situationen zu bringen. „Es ist sowohl in Bezug auf seine Menschen als auch auf seine Technologie jung“, sagt sie. „Wir müssen weniger Trägheit überwinden.“