Nvidia durchbricht Stundenmarke bei KI- Sprachmodell BERT
18. August 2019Nvidia durchbricht Stundenmarke bei KI- Sprachmodell BERT
New York, 18.8.2019
Zu den neuesten Errungenschaften von Nvidia gehört nun auch das Durchbrechen der Stundenmarke im Training BERT, eines der weltweit fortschrittlichsten KI-Sprachmodelle. Die KI-Plattform von Nvidia konnte das Modell in nur 53 Minuten trainieren. Das trainierte Modell konnte dann in etwas mehr als zwei Millisekunden (10 Millisekunden waren der bisherige Rekord) erfolgreich ableiten und dami die im Training erworbenen Fähigkeiten tatsächlich anwenden, um Ergebnisse zu erzielen – ein weiterer Rekord.
Dies Durchbrüche von Nvidia sind skalierbar und bieten echte Vorteile für jeden, der mit seiner NLP-KommunikationskI- und GPU-Hardware arbeitet. Nvidia erreichte seine Rekordzeiten für das Training auf einem seiner SuperPOD-Systeme, das aus 92 Nvidia DGX-2H-Systemen mit 1.472 V100-Grafikprozessoren besteht, und verwaltete den Rückschluss auf Nvidia T4-Grafikprozessoren mit Nvidia TensorRT – was die Leistung selbst hoch optimierter CPUs um ein Vielfaches übertraf. Aber es stellt den BERT-Trainingscode und TensorRT optimiertes BERT Sample über GitHub zur Verfügung, damit alle es nutzen können.
Neben diesen Meilensteinen baute und trainierte der Nvidia-Forschungsflügel auch das bisher größte Sprachmodell auf Basis von „Transformers“, der Technologie, die auch dem BERT zugrunde liegt. Dieses benutzerdefinierte Modell enthält massive 8,3 Milliarden Parameter, was es 24-mal so groß macht wie BERT-Large, das größte aktuelle BERT-Kernmodell. Nvidia hat dieses Modell frech „Megatron“ genannt und auch den PyTorch-Code angeboten, mit dem es dieses Modell trainiert hat, damit andere ihre eigenen, ähnlichen, massiven Transformer-basierten Sprachmodelle trainieren können.