Wie KI lernt, zwischen den Zeilen zu lesen
6. Februar 2019Ob Siri oder Alexa – direkte Aussagen wie „Wer war Einstein?“ oder „Sag mir bitte, wie ich einen Kaffee koche“ verstehen sie und liefern entsprechende Lösungen. KI hat jedoch Probleme, Redewendungen und Subtext zu verstehen. An der University of Washington in Seattele sowie an der Carnegie Mellon University in Pittsburgh haben Forscherteams in dieser Thematik Fortschritte gemacht. Worum geht es hier? Die Fähigkeit von Computern, unliteral Sprache zu erkennen und richtig zu interpretieren, wird immer wichtiger, da KI immer tiefer in unseren Alltag eindringt. In diesem Fall sind Mißverständnisse und Falsschaussagen mehr als lästig.
Weil die Menschen ihre Absichten nicht immer klar und eindeutig ausdrücken, oder weil sie ihren Worten Nachdruck verleihen und weil es in ihrer Sprache Wörter gibt, die- je nach Zusammenhang – mehrere Bedeutungen haben können, stößt selbst eine gute Übersetzungssoftware wie Google tanslate oder DeepL an Grenzen. Dies haben einige Forscher erkannt und darum Lösungsmöglichkeiten erarbeitet.
Eine der wichtigsten Konversationsfähigkeiten zwischen den Menschen ist der Umgang mit Subtext. Der Gesichtsausdruck oder die Intonation einer Person kann die Bedeutung ihrer Worte erheblich verändern, sagt Louis-Philippe Morency, Forscher für künstliche Intelligenz an der Carnegie Mellon University in Pittsburgh. Wer seinen Gesundheitszustand mit „krank“ bezeichnet und dabei ein Lächeln aufsetzt, vermittelt: er sieht das gelassen. Setzt er eine schmerzverzerrte Grimasse auf, vermittelt er, es handelt sich um etwas Ernstes. Doch KI- Software sieht die Mimik nicht. Was tun?
Morency und seine Kollegen entwickelten ein System für künstliche Intelligenz, das YouTube-Clips ansah, um zu erfahren, wie nonverbale Hinweise wie Gesichtsausdrücke und Stimmlage die Bedeutung von gesprochenen Wörtern beeinflussen können.
Ihre KI war zu 78 Prozent genau in der Bewertung, wie viel negative oder positive Gefühle ein Videosubjekt aussprach, berichtete das Team von Morency. Das System erwies sich auch als fähig, zwischen verschiedenen geäußerten Emotionen zu unterscheiden. Aber es erkannte einige Emotionen besser als andere. So wurde beispielsweise Glück und Trauer mit einer Genauigkeit von 87,3 bzw. 83,4 Prozent identifiziert, aber bei der Erkennung neutraler Ausdrücke waren es nur 69,7 Prozent.
Ziemlich knifflig wird es auch beim Gebrauch von Idiomen, weil sie – je nach Kontext- wörtlich oder bildlich interpretiert werden können. Zum Beispiel in dieser wörtlichen Überschrift : „Kinder spielen mit Feuer: Experten warnen Eltern, auf Gefahren zu achten.“ Eine bildliche Darstellung wäre diese Aussage: „Das Spiel mit dem Feuer in Afghanistan“.
Um mögliche Mißverständnisse auszuräumen , entwickelten Changsheng Liu und Rebecca Hwa, Informatiker an der University of Pittsburgh, ein System, das anhand der umgebenden Wörter bestimmt, ob eine Phrase wörtlich oder bildlich gemeint ist. Im Fall der Schlagzeilen „Mit dem Feuer spielen“ kann das System erwarten, die Wörter „Kinder“ und „Spielen“ zusammen zu sehen, und daher eher die erste Schlagzeile als wörtlich zu bezeichnen, finden Sie jedoch die Wörter „Afghanistan“ und „ spielen “, drängt sich die bildliche Schlagzeile auf.
Dieses KI-System lernte, verschiedene Wörter durch Lesen von Sätzen aus Wikipedia-Einträgen zu verknüpfen. In Experimenten war das Programm 73 bis 75 Prozent genau bei der Beurteilung, ob die in Sätzen enthaltenen Sätze wörtlich oder bildlich waren, berichteten Hwa und Liu. (HB, 6.2.2019)