ChatGPT liefert jetzt im Vergleich zu seiner Leistung im Frühjahr weniger intelligente Antworten. Während die KI-Gemeinschaft die zugrunde liegenden Faktoren diskutiert, betrachten Unternehmen diese Entdeckung als warnendes Signal.
Vor einigen Wochen begannen Berichte über zunehmende Probleme mit GPT-4 aufzutauchen, dem modernen Sprachmodell, das von OpenAI, dem in Kalifornien ansässigen AI-Unternehmen, entwickelt wurde. Eine wissenschaftliche Studie namhafter Universitäten Stanford und Berkeley hat nun bestätigt, dass das einst führende KI-System, das auch von mehreren deutschen Unternehmen weit verbreitet genutzt wird, in verschiedenen Aspekten seiner Leistung erheblich abgenommen hat.
Im Jahr stellte das Wissenschaftsteam dieselben Fragen an die Systeme von OpenAI wie im März. Obwohl GPT-4 früher äußerst zuverlässig war, hat es in letzter Zeit eine wachsende Anzahl von Fehlern aufgewiesen. Infolgedessen hat sich die KI-Community mit dieser Entwicklung auseinandergesetzt.
Diese Erkenntnis dient als warnende Botschaft an Benutzer und Unternehmen, die derzeit GPT-4 oder den Textroboter ChatGPT verwenden oder ein Geschäftsmodell um sie herum aufbauen. Es wirft wichtige Fragen auf und liefert aufschlussreiche Antworten.
Welche Experimente haben die Wissenschaftler mit GPT-4 durchgeführt?
Im März und Juni wiesen die Forscher den Sprachmodellen GPT-4 und seinem Vorgänger GPT-3.5 vier unterschiedliche Aufgaben zu. Diese Aufgaben umfassten das Lösen mathematischer Probleme, das Beantworten sensibler Fragen, das Verfassen von Programmcode und das Lösen visueller Rätsel. Die Forscher wollten die Fähigkeiten und Leistungsfähigkeit der Modelle in diesen Bereichen bewerten.
Die bemerkenswerte Entdeckung zeigte, dass sowohl GPT-3.5 als auch GPT-4 im Laufe der Zeit erhebliche Schwankungen in Leistung und Verhalten aufwiesen, wie von den Wissenschaftlern beobachtet. Insbesondere bestimmte Aspekte der Modelle zeigten eine signifikante Verschlechterung.
Welche Unterschiede sind aufgetreten?
Nach Angaben der Wissenschaftler zeigen die Ergebnisse, dass sich das Verhalten des ‚gleichen‘ Sprachmodells innerhalb eines relativ kurzen Zeitraums signifikant verändern kann. Die Wissenschaftler geben jedoch keine Erklärungen für die Schwankungen und die relativ schwache Leistung von GPT-4 ab. Sie betonen die Notwendigkeit einer kontinuierlichen Überwachung der Modellqualität.
Laut James Zou, einem Professor für Datenwissenschaften an der Stanford University und Co-Autor der Studie, sollte Vorsicht geboten sein, wenn Schlussfolgerungen gezogen werden. Zou erklärte, dass die Vorhersage, ob sich GPT-4 oder GPT-3.5 im Laufe der Zeit verbessern oder verschlechtern werden, eine komplexe Aufgabe ist.
Welche möglichen Erklärungen gibt es?
KI-Modelle wie GPT werden von zwei entscheidenden Faktoren beeinflusst: den Trainingsdaten, die sie erhalten, und der Generierung von Hunderten von Milliarden Parametern als Inferenzen. Nach dem anfänglichen Training verwenden KI-Unternehmen häufig Feinabstimmungstechniken, um diese Modelle zu optimieren. Dieser iterative Prozess verbessert die Schreibqualität, Struktur und Lesbarkeit, während die ursprüngliche Bedeutung erhalten bleibt.
Laut Studienautor Zuo kann der Prozess mit der Genbearbeitung in der Biologie verglichen werden. In dieser Analogie können KI-Parameter als das Äquivalent von DNA-Basenpaaren angesehen werden. Durch sorgfältige Anpassung und Feinabstimmung dieser Parameter können gezielte Modifikationen vorgenommen werden. Es ist jedoch wichtig zu beachten, dass jede Modifikation, egal wie klein, unbeabsichtigte Auswirkungen in anderen Bereichen haben kann.