Neuer Benchmark- Ansatz bringt Transparanz in KI- Sprachmodelle

18. November 2022 0 Von Horst Buchwald

Neuer Benchmark- Ansatz bringt Transparanz in KI- Sprachmodelle

San Franciso, 18.11.2022

Ein neuer Benchmark-Ansatz kann dabei helfen, die schnell wachsenden KI-Sprachmodelle zu bewerten und mehr Licht in sie zu bringen.

Das Stanford AI Center for Research on Foundation Models (CRFM) kündigte das Projekt mit der Bezeichnung Holistic Evaluation of Language Models (HELM) an, das als „Landkarte für die Welt der Sprachmodelle“ dienen soll, da diese immer beliebter werden.

CFRM ist aus dem Stanford Institute for Human-Centered Artificial Intelligence (HAI) hervorgegangen. Bislang gab es keinen einheitlichen Standard, um Sprachmodelle zu vergleichen und zu bewerten und ihre Fairness, Robustheit und andere Aspekte zu berücksichtigen. HELM soll diese Transparenz schaffen, so das CFRM, das eine „Zusammenarbeit mit der breiteren KI-Gemeinschaft“ anstrebt.

Zu den Kernpunkten von HELM, das regelmäßig aktualisiert werden soll, gehören die Bewertung von Modellen hinsichtlich Genauigkeit, Kalibrierung, Robustheit, Fairness, Verzerrung, Toxizität und Effizienz.

Ein Team unter der Leitung von CRFM-Direktor Percy Liang bewertete verschiedene Modelle für unterschiedliche Szenarien. Die Modelle waren entweder Open-Source, privat oder wurden über kommerzielle APIs angeboten. Das Team kam zu dem Ergebnis, dass die Feinabstimmung der Modelle anhand menschlicher Rückmeldungen „in Bezug auf Genauigkeit, Robustheit und Fairness sehr effektiv ist“ und es kleineren Modellen ermöglicht, mit denen zu konkurrieren, die zehnmal so groß sind wie sie.

Offene Modelle wie OPT von Meta und BLOOM von BigScience schneiden immer noch schlechter ab als nicht-offene Modelle wie InstructGPT davinci v2 von OpenAI, obwohl das Team feststellte, dass sich offene Modelle „im letzten Jahr dramatisch verbessert haben.“