Googles neue Technik des „Data Echoing“ beschleunigt das KI-Training
16. Juli 2019New York, 15.7.2019
KI-Beschleuniger-Hardware wie Googles Tensor Processing Units und Intels Nervana Neural Network Processor versprechen, das KI-Modelltraining zu beschleunigen. Doch aufgrund der Art und Weise, wie die Chips aufgebaut sind, profitieren frühere Phasen der Trainingspipeline (wie die Datenvorverarbeitung) nicht von den Verbesserungen. Deshalb schlagen Wissenschaftler von Google Brain, der KI-Forschungsabteilung von Google, in einem Beitrag eine Technik namens „Data Echoing“ vor, von der sie sagen, dass sie die Berechnung, die von früheren Pipelinestufen verwendet wird, reduziert, indem sie Zwischenergebnisse aus diesen Phasen wiederverwenden.
Laut den Forschern können die leistungsfähigsten Datenecho-Algorithmen mit weniger Upstream-Verarbeitung die Vorhersageleistung der Baseline erreichen und in einigen Fällen eine viermal langsamere Eingangspipeline kompensieren.
„Das Training eines neuronalen Netzwerks erfordert mehr als nur die Operationen, die gut mit Beschleunigern laufen, daher können wir uns nicht allein auf Beschleunigerverbesserungen verlassen, um in allen Fällen weiterhin Beschleunigungen zu erzielen“, beobachteten die Mitautoren. „Ein Trainingsprogramm muss möglicherweise Trainingsdaten lesen und dekomprimieren, mischen, dosieren und sogar transformieren oder ergänzen. Diese Schritte können mehrere Systemkomponenten betreffen, einschließlich CPUs, Festplatten, Netzwerkbandbreite und Speicherbandbreite.“
In einer typischen Trainingspipeline liest und dekodiert das KI-System zunächst die Eingabedaten und mischt dann die Daten, wobei es einen Satz von Transformationen anwendet, um sie zu ergänzen, bevor es Beispiele in Chargen sammelt und Parameter iterativ aktualisiert, um Fehler zu reduzieren. Der Datenecho-Ansatz der Forscher fügt eine Stufe in die Pipeline ein, die die Ausgangsdaten der vorherigen Stufe wiederholt, bevor die Parameter aktualisiert werden, wodurch theoretisch ungenutzte Rechnerkapazitäten wiederhergestellt werden.
In Experimenten wertete das Team Daten aus, die auf zwei Sprachmodellierungsaufgaben, zwei Bildklassifizierungsaufgaben und eine Objekterkennungsaufgabe zurückgreifen, wobei KI-Modelle verwendet wurden, die auf Open-Source-Datensätzen trainiert wurden. Sie maßen die Trainingszeit als die Anzahl der „frischen“ Trainingsbeispiele, die benötigt wurden, um eine Zielkennzahl zu erreichen, und sie untersuchten, ob das Echo von Daten die Anzahl der benötigten Beispiele reduzieren könnte.
Die Mitautoren berichten, dass in allen Fällen – mit einer Ausnahme -, die Datenwiedergabe weniger neue Beispiele als die Grundlinie erforderte. Darüber hinaus stellen sie fest, dass das frühere Echo in die Pipeline eingefügt wird – d.h. vor der Datenvermehrung im Vergleich zur Nachdosierung – umso weniger neue Beispiele benötigt wurden und dass das Echo bei größeren Losgrößen gelegentlich besser abschneidet.
„Alle Varianten des Datenechos erreichten mindestens die gleiche Leistung wie die Baseline für beide Aufgaben….[Es ist] eine einfache Strategie zur Steigerung der Hardwareauslastung, wenn die Trainingspipeline in einer der vorgelagerten Phasen einen Engpass hat“, schrieb das Team. „Datenecho ist eine effektive Alternative zur Optimierung der Ausbildungspipeline oder zur Einstellung zusätzlicher Mitarbeiter für die vorgelagerte Datenverarbeitung, was nicht immer möglich oder wünschenswert ist.“