Microsoft und Nvidia präsentieren leistungsfähigstes Transformer- Sprachmodelle

Microsoft und Nvidia präsentieren leistungsfähigstes Transformer- Sprachmodelle

13. Oktober 2021 0 Von Horst Buchwald

Microsoft und Nvidia präsentieren leistungsfähigstes Transformer- Sprachmodelle

San Francisco, 13.10.2021

Microsoft und Nvidia haben ein Modell zur Erzeugung natürlicher Sprache vorgestellt, das dreimal mehr Parameter als GPT-3 hat. In einem Blogbeitrag bezeichneten sie das Modell MT-NLG als „das größte und leistungsfähigste monolithische Transformer-Sprachmodell, das bisher trainiert wurde“.

Sprachmodelle analysieren und generieren neuen Text auf der Grundlage von Aufforderungen. Sie können z. B. vorhersagen, was eine Person als Nächstes in einer E-Mail schreiben könnte, oder eine Geschichte auf der Grundlage einer einzigen Schlagzeile verfassen.

MT-NLG zeigt eine „unübertroffene Genauigkeit“ bei diesen und anderen Aufgaben, wie z. B. Leseverständnis, gesunder Menschenverstand, Vervollständigungsvorhersage und Disambiguierung des Wortsinns.

Das Modell hat 530 Milliarden Parameter im Vergleich zu den 175 Milliarden Parametern des GPT-3-Modells von OpenAI. Es ist immer noch weniger als das Switch Transformer NLP-Modell von Google, das 1,6 Billionen Parameter hat. Mehr Parameter bedeuten in der Regel ein ausgefeilteres und komplexeres Modell, das besser in der Lage ist, die Nuancen der Sprache zu verstehen.

Es wurde mit Nvidias 85 Millionen Dollar teurem Supercomputer Selene trainiert, der aus 560 DGX A100-Servern besteht, von denen jeder über acht A100 80GB-GPUs verfügt. Wie andere Sprachmodelle ist es jedoch manchmal toxisch und voreingenommen. Das liegt daran, dass es diese Eigenschaften von den Daten übernimmt, auf denen es trainiert wurde, obwohl Nvidia und Microsoft sagen, dass sie „engagiert daran arbeiten, dieses Problem zu lösen.“