Baidu schlägt Microsoft und Google im Wettbewerb der Sprachmodelle

Baidu schlägt Microsoft und Google im Wettbewerb der Sprachmodelle

2. Januar 2020 0 Von Horst Buchwald

Baidu schlägt Microsoft und Google im Wettbewerb der Sprachmodelle

New York, 2.1.2020

General Language Understanding Evaluation, auch bekannt als GLUE, ist ein weithin anerkannter Maßstab dafür, wie gut ein KI-System die menschliche Sprache versteht. Es besteht aus neun verschiedenen Tests wie zum Beispiel : Auswahl der Namen von Personen und Organisationen in einem Satz und das Herausfinden oder worauf sich ein Pronomen wie „es“ bezieht, wenn es mehrere potenzielle Vorläufer gibt. Ein Sprachmodell, das bei der GLUE sehr gut abschneidet, kann daher verschiedene Aufgaben des Leseverstehens bewältigen. Von einer vollen Punktzahl von 100 erreicht die Durchschnittsperson etwa 87 Punkte. Baidu ist nun das erste Team, das mit seinem Modell ERNIE über 90 Punkte erreichte.

Bemerkenswert an Baidu ist, dass es zeigt, wie die KI-Forschung von einer Vielfalt der Mitwirkenden profitiert. Baidu’s Forscher mussten eine Technik speziell für die chinesische Sprache entwickeln, um ERNIE (was für „Enhanced Representation through kNowledge IntEgration“ steht) aufzubauen. Zufälligerweise verbesserte dieselbe Technik aber auch das Verständnis der englischen Sprache.

ERNIE’s Vorgängerin

Um ERNIE einschätzen zu können, sollte man sich jenes Modell vor Augen halten, von dem es inspiriert wurde: Google’s BERT. (Ja, sie sind beide nach den Zeichen der Sesamstraße benannt.)

Bevor BERT („Bidirektionale Encoder-Darstellungen von Transformatoren“) Ende 2018 erstellt wurde, waren die Ergebnisse natürlichsprachlicher Modelle dürftig. Sie waren gut darin, das nächste Wort in einem Satz vorherzusagen – und damit gut geeignet für Anwendungen wie Autocomplete -, aber sie konnten nicht einen einzigen Gedankengang über eine kleine Passage aufrechterhalten. Das lag daran, dass sie die Bedeutung eines Wortes -wie z.B. „es“ – nicht verstanden.

Eben dies änderte BERT. Frühere Modelle lernten, die Bedeutung eines Wortes vorherzusagen und zu interpretieren, indem sie nur den Kontext berücksichtigten, der vor oder nach dem Wort auftauchte – niemals beides gleichzeitig. Sie waren, mit anderen Worten, unidirektional.

BERT hingegen betrachtet den Kontext vor und nach einem Wort auf einmal, wodurch es bidirektional wird. Es verwendet dazu eine Technik, die als „Maskierung“ bekannt ist. In einer gegebenen Textpassage versteckt BERT zufällig 15% der Wörter und versucht dann, sie von den restlichen Wörtern vorherzusagen. Dadurch kann es genauere Vorhersagen treffen, weil es doppelt so viele Hinweise hat, von denen aus es arbeiten kann. In dem Satz „Der Mann ging zum ___, um Milch zu kaufen“ zum Beispiel, geben sowohl der Anfang als auch das Ende des Satzes Hinweise auf das fehlende Wort. Das ___ ist ein Ort, an den man gehen kann und ein Ort, an dem man Milch kaufen kann.

Die Maskierung ist eine der Kerninnovationen hinter dramatischen Verbesserungen bei natürlichsprachlichen Aufgaben und ist einer der Gründe, warum Modelle wie OpenAIs berüchtigtes GPT-2 äußerst überzeugende Prosa schreiben können, ohne von einer zentralen These abzuweichen.

Von Englisch nach Chinesisch und wieder zurück

Als die Baidu-Forscher begannen, ein eigenes Sprachmodell zu entwickeln, wollten sie auf der Maskierungstechnik aufbauen. Aber sie erkannten, dass sie es verbessern mussten, um der chinesischen Sprache gerecht zu werden.

Im Englischen dient das Wort als semantische Einheit – ein völlig aus dem Zusammenhang gerissenes Wort enthält noch immer Bedeutung. Dasselbe gilt nicht für Zeichen im Chinesischen. Während bestimmte Zeichen eine inhärente Bedeutung haben, wie Feuer (, huŏ), Wasser (, shuĭ) oder Holz (, mù), haben die meisten erst dann eine Bedeutung, wenn sie mit anderen aneinander gereiht sind. Das Zeichen (líng) zum Beispiel kann je nach Übereinstimmung entweder clever (机灵, jīlíng) oder Seele (灵魂, línghún) bedeuten. Und die Zeichen in einem Eigennamen wie Boston (波士顿, bōshìdùn) oder den USA (美国, měiguó) bedeuten nicht dasselbe, wenn sie einmal getrennt sind.

Deshalb haben die Forscher ERNIE auf eine neue Version der Maskierung trainiert, die Zeichenketten statt einzelner Zeichen versteckt. Sie trainierten es auch, zwischen sinnvollen und zufälligen Zeichenfolgen zu unterscheiden, damit es die richtigen Zeichenkombinationen entsprechend maskieren kann. Dadurch hat ERNIE ein besseres Verständnis dafür, wie Wörter Informationen im Chinesischen kodieren und kann die fehlenden Teile viel genauer vorhersagen. Dies erweist sich als nützlich für Anwendungen wie Übersetzung und Informationswiedergewinnung aus einem Textdokument.

Die Forscher entdeckten sehr schnell, dass dieser Ansatz auch für das Englische besser funktioniert. Obwohl nicht so oft wie im Chinesischen, hat das Englische ähnlich wie das Chinesische eine Reihe von Wörtern, die eine andere Bedeutung als die Summe ihrer Teile ausdrücken. Eigene Substantive wie „Harry Potter“ und Ausdrücke wie „chip off the old block“ können nicht sinnvoll analysiert werden, indem man sie in einzelne Wörter zerlegt.

Also für den Satz:

Harry Potter ist eine Serie von Fantasy-Romanen, geschrieben von J. K. Rowling.

BERT könnte es folgendermaßen maskieren:

Potter ist eine Serie von Fantasy-Romanen von J. Rowling.

Aber ERNIE würde es stattdessen so maskieren:

Harry Potter ist ein Fantasy-Roman von [Maske] [Maske] [Maske] [Maske] [Maske] [Maske].

So lernt ERNIE robustere Vorhersagen, die auf der Bedeutung und nicht auf statistischen Wortverwendungsmustern basieren.

Eine Vielfalt von Ideen

In der neuesten Version von ERNIE werden auch verschiedene andere Trainingstechniken eingesetzt. Sie berücksichtigt die Reihenfolge von Sätzen und die Abstände zwischen ihnen, um z.B. den logischen Ablauf eines Absatzes zu verstehen. Am wichtigsten ist jedoch eine Methode, die als kontinuierliches Training bezeichnet wird und die es erlaubt, an neuen Daten und neuen Aufgaben zu trainieren, ohne die zuvor gelernten zu vergessen. Dadurch kann es im Laufe der Zeit immer besser werden, eine breite Palette von Aufgaben mit minimaler menschlicher Einmischung zu erfüllen.

Baidu nutzt ERNIE aktiv, um den Nutzern mehr anwendbare Suchergebnisse zu liefern, doppelte Meldungen in seinem Newsfeed zu entfernen und die Fähigkeit seines KI-Assistenten Xiao Du zu verbessern, auf Anfragen genau zu reagieren. Die neueste Architektur von ERNIE wurde in einem Papier beschrieben, das auf der Konferenz der Association for the Advancement of Artificial Intelligence 11. -14.Juni ( https://icwsm.org/2019/index.php ) vorgestellt wird. So wie ihr Team auf Googles Arbeit mit dem BERT aufbaute, hoffen die Forscher, dass auch andere von ihrer Arbeit mit ERNIE profitieren werden.

„Als wir mit dieser Arbeit begannen, dachten wir speziell über bestimmte Eigenschaften der chinesischen Sprache nach“, sagt Hao Tian, der Chefarchitekt von Baidu Research. „Aber wir entdeckten schnell, dass es sich um anwendbare

darüber hinaus.“