Arthur: misst Leistung großer Sprachmodelle

Arthur: misst Leistung großer Sprachmodelle

21. August 2023 0 Von Horst Buchwald

Arthur: misst Leistung großer Sprachmodelle

San Francisco, 0.8.2023

Arthur, eine Plattform zur Überwachung von Modellen für maschinelles Lernen, hat eine neue Studie veröffentlicht, die die Leistung der besten großen Sprachmodelle in Bereichen wie Mathematik, sogenanntes „Hedging“, und ihr Wissen über US-Präsidenten misst.

Laut Arthur schnitt GPT-4 von OpenAI insgesamt am besten ab. Es halluzinierte deutlich weniger als die Vorgängerversion. Vor allem bei Fragen zu kombinatorischer (Zähl-)Mathematik und Wahrscheinlichkeit bewies das Tool seine Überlegenheit. Trotz schmerzhafter Fehler landete Cohere in der Führungsetage. Bei diesem Ergebnis ist das allerdings mehr als erstaunlich; oder unsinnige Informationen generieren.

Forscher von Arthur AI stellten fest, dass einige Modelle deutlich mehr Fakten erfinden oder „halluzinieren“ als andere. Coheres KI halluzinierte am meisten, während Meas Llama 2 insgesamt mehr halluzinierte als GPT-4 und Claude 2.

Insgesamt schnitt GPT-4 von allen getesteten Modellen am besten a- b, und Forscher fanden heraus, dass es weniger halluzinierte als seine Vorgängerversion, GPT-3.5 – bei Mathematikfragen halluzinierte es beispielsweise zwischen 33 % und 50 % weniger. je nach Kategorie.