Facebook hat ein neuronales Netzwerk, das höhere Mathematik beherrscht
17. Dezember 2019Facebook hat ein neuronales Netzwerk, das höhere Mathematik beherrscht
New York, 17.12.2019
Bisher kamen neuronale Netze nie über die einfache Addition und Multiplikation hinaus. Dieses jedoch berechnet Integrale und löst Differentialgleichungen. Hier ist eine Herausforderung für die mathematisch Begabten unter Ihnen. Lösen Sie die folgende Differentialgleichung für y:
Sie haben 30 Sekunden.
Die Antwort lautet natürlich:
Wenn Sie keine Lösung finden konnten, fühlen Sie sich nicht minderwertig. Dieser Ausdruck ist so knifflig, dass sogar verschiedene leistungsfähige Mathematik-Softwarepakete auch nach 30 Sekunden Zahlenverarbeitung versagten.
Guillaume Lample und François Charton von Facebook AI Research in Paris sagen, dass sie heute einen Algorithmus entwickelt haben, der diese Aufgabe während eines Augenaufschlags erledigt. Sie haben zuvor ein neuronales Netzwerk trainiert, um die notwendigen symbolischen Überlegungen durchzuführen, um mathematische Ausdrücke zum ersten Mal zu unterscheiden und zu integrieren. Das Ergebnis ist ein bedeutender Schritt in Richtung eines leistungsfähigeren mathematischen Denkens und einer neuen Methode zur Anwendung neuronaler Netze, die über traditionelle Mustererkennungsaufgaben hinausgeht.
Zunächst einige Hintergrundinformationen. Neuronale Netze haben sich bei Mustererkennungsaufgaben wie der Gesichts- und Objekterkennung, bestimmten Arten der Verarbeitung natürlicher Sprache und sogar bei Spielen wie Schach, Go und Space Invaders enorm bewährt.
Für neuronale Netze und Menschen ist eine der Schwierigkeiten bei fortgeschrittenen mathematischen Ausdrücken die Abkürzung, auf die sie sich stützen. Zum Beispiel ist der Ausdruck x3 eine Kurzschreibweise von x multipliziert mit x multipliziert mit x. In diesem Beispiel ist „Multiplikation“ eine Abkürzung für die wiederholte Addition. Dies ist wiederum eine Abkürzung für den Gesamtwert zweier kombinierter Größen.
Es ist leicht zu erkennen, dass selbst ein einfacher mathematischer Ausdruck eine stark komprimierte Beschreibung einer Folge von viel einfacheren mathematischen Operationen ist.
Kein Wunder also, dass neuronale Netze mit dieser Art von Logik zu kämpfen haben. Wenn sie nicht wissen, was die Kurzschrift darstellt, besteht nur eine geringe Chance, dass sie lernen, sie zu verwenden. In der Tat haben Menschen ein ähnliches Problem, das oft schon in jungen Jahren auftritt.
Auf der fundamentalen Ebene beinhalten Prozesse wie Integration und Differenzierung jedoch immer noch Mustererkennungsaufgaben, auch wenn sie durch mathematische Abkürzungen verborgen sind.
Lample und Charton hingegen fanden eine elegante Methode, um mathematische Kurzschrift in ihre grundlegenden Einheiten zu zerlegen. Anschließend trainieren sie ein neuronales Netzwerk, um die Muster der mathematischen Manipulation zu erkennen, die der Integration und Differenzierung entsprechen. Schließlich lassen sie das neuronale Netzwerk von Ausdrücken los, die es noch nie gesehen hat, und vergleichen die Ergebnisse mit den Antworten, die von konventionellen Lösern wie Mathematica und Matlab abgeleitet wurden.
Der erste Teil dieses Prozesses besteht darin, mathematische Ausdrücke in ihre Bestandteile zu zerlegen. Lample und Charton repräsentieren dabei Ausdrücke als baumartige Strukturen. Die Blätter auf diesen Bäumen sind Zahlen, Konstanten und Variablen wie x; Die internen Knoten sind Operatoren wie Addition, Multiplikation, Differenzierung in Bezug auf und so weiter.
Zum Beispiel kann der Ausdruck 2 + 3 x (5 + 2) geschrieben werden als:
Bäume sind gleich, wenn sie mathematisch äquivalent sind. Beispielsweise,
2 + 3 = 5 = 12 – 7 = 1 x 5 sind alle gleichwertig; deshalb sind auch ihre Bäume gleichwertig.
Viele mathematische Operationen sind auf diese Weise einfacher zu handhaben. „Zum Beispiel bedeutet eine Vereinfachung des Ausdrucks, eine kürzere äquivalente Darstellung eines Baums zu finden“, sagen Lample und Charton.
Diese Bäume können auch als Sequenzen geschrieben werden, wobei jeder Knoten nacheinander genommen wird. In dieser Form sind sie reif für die Verarbeitung durch einen neuronalen Netzwerkansatz namens seq2seq.
Interessanterweise wird dieser Ansatz häufig auch für maschinelle Übersetzungen verwendet, bei denen eine Folge von Wörtern in einer Sprache in eine Folge von Wörtern in einer anderen Sprache übersetzt werden muss. Tatsächlich sagen Lample und Charton, dass ihr Ansatz Mathematik im Wesentlichen als natürliche Sprache behandelt.
Die nächste Stufe ist der Schulungsprozess, und dies erfordert eine riesige Datenbank mit Beispielen, aus denen man lernen kann. Lample und Charton erstellen diese Datenbank, indem sie mathematische Ausdrücke aus einer Bibliothek von Binäroperatoren wie Addition, Multiplikation usw. zufällig zusammenstellen. unäre Operatoren wie cos, sin und exp; und eine Menge von Variablen, ganzen Zahlen und Konstanten, wie z. B. π und e. Sie begrenzen auch die Anzahl der internen Knoten, um zu verhindern, dass die Gleichungen zu groß werden.
Selbst mit einer relativ geringen Anzahl von Knoten und mathematischen Komponenten ist die Anzahl der möglichen Ausdrücke sehr groß. Jede Zufallsgleichung wird dann unter Verwendung eines Computeralgebrasystems integriert und differenziert. Ein Ausdruck, der nicht integriert werden kann, wird verworfen.
Auf diese Weise generieren die Forscher einen umfangreichen Trainingsdatensatz, der aus 80 Millionen Beispielen für Differentialgleichungen erster und zweiter Ordnung und 20 Millionen Beispielen für nach Teilen integrierte Ausdrücke besteht.
Schließlich testen Lample und Charton ihr neuronales Netzwerk, indem sie 5.000 bisher unbekannte Ausdrücke einspeisen und die in 500 Fällen erzielten Ergebnisse mit den Ergebnissen kommerziell erhältlicher Software wie Maple, Matlab und Mathematica vergleichen.
Diese Softwarepakete verwenden einen algorithmischen Ansatz, der in den 1960er Jahren vom amerikanischen Mathematiker Robert Risch ausgearbeitet wurde. Der Algorithmus von Risch ist jedoch riesig und umfasst allein für die Integration 100 Seiten. Daher verwendet symbolische Algebra-Software häufig reduzierte Versionen, um die Dinge zu beschleunigen.
Die Vergleiche zwischen diesen und dem Ansatz des neuronalen Netzwerks sind aufschlussreich. „Wir stellen bei allen Aufgaben fest, dass unser Modell Mathematica deutlich übertrifft“, sagen die Forscher. „Bei der Funktionsintegration erreicht unser Modell eine Genauigkeit von nahezu 100%, während Mathematica kaum 85% erreicht.“ Und die Pakete Maple und Matlab schneiden im Durchschnitt schlechter ab als Mathematica.
In vielen Fällen können die herkömmlichen Pakete innerhalb von 30 Sekunden keine Lösung finden. Zum Vergleich: Das neuronale Netz benötigt nur eine Sekunde.
Ein interessantes Ergebnis ist, dass das neuronale Netzwerk häufig mehrere gleichwertige Lösungen für dasselbe Problem findet. Das liegt daran, dass mathematische Ausdrücke normalerweise auf viele verschiedene Arten geschrieben werden können. Diese Fähigkeit ist für die Forscher ein spannendes Rätsel. „Die Fähigkeit des Modells, äquivalente Ausdrücke wiederherzustellen, ohne dafür geschult worden zu sein, ist sehr faszinierend“, sagen Lample und Charton.
Das ist ein bedeutender Durchbruch. „Nach unserem besten Wissen hat keine Studie die Fähigkeit neuronaler Netze untersucht, Muster in mathematischen Ausdrücken zu erkennen“, so das Paar.Das Ergebnis hat jetzt ein enormes Potenzial in der immer wichtiger und komplexer werdenden Welt der Rechenmathematik.
Die Forscher verraten Facebooks Pläne für diesen Ansatz nicht. Es ist jedoch sehr wahrscheinlich, das Facebook diesen Service anbieten wird, weil er besser ist als die der Marktführer. Ebenso wahrscheinlich aber ist, dass die Degradierten nicht still sitzen bleiben. Konsequenz: Erwarten Sie einen mächtigen Kampf in der Welt der Computermathematik.
Ref: arxiv.org/abs/1912.01412: Deep Learning für symbolische Mathematik