Studie: Wird GPT-4 mit längerem Einsatz dumm?
22. Juli 2023Studie: Wird GPT-4 mit längerem Einsatz dumm?
San Francisco, 21.7.2023
Eine Studie von Forschern aus Stanford und Berkeley hat ergeben, dass die Sprachmodelle von OpenAI im Juni im Vergleich zu März in einigen Bereichen schlechter abschnitten. Beispielsweise sank die Genauigkeit von GPT-4 bei der Identifizierung von Primzahlen von 97,6 % auf 2,4 %.
Die nicht von Experten begutachtete Studie untersuchte die Leistung von GPT-3.5 und GPT-4 in Bereichen wie dem Lösen mathematischer Probleme, der Beantwortung gefährlicher/sensibler Fragen, der Generierung von Code und dem visuellen Denken.
GPT-4 zeigte im Juni eine geringere Bereitschaft, sensible Fragen zu beantworten, und beide Modelle hatten mehr Formatierungsfehler bei der Codegenerierung.
Im Juni gegenüber März sank der Anteil der direkt ausführbaren Generationen von GPT-4 von 52 % auf 10 %.
Das Papier hebt das Problem der Modelldrift bzw. eines Rückgangs der Genauigkeit und Leistung der Modelle im Laufe der Zeit hervor.
Insgesamt zeigen unsere Ergebnisse, dass sich das Verhalten des ‚gleichen‘ LLM-Dienstes in relativ kurzer Zeit erheblich ändern kann“, schreiben die Forscher und fügten hinzu, dass es wichtig sei, die Leistung der Modelle kontinuierlich zu überwachen.
Die Studie stimmt mit einigen Benutzerberichten überein, wonach die Modelle weniger intelligent werden.
Peter Welinder, Produktvizepräsident von OpenAI, bestritt jedoch absichtliche Änderungen, um die Modelle „dümmer“ zu machen, und sagte, dass Benutzer im Laufe der Zeit möglicherweise mehr Probleme bemerken, einfach weil sie ChatGPT häufiger verwenden.