Doch (noch) kein selbstständiges, komplexes Denken möglich

Studie unter Leitung des UKP Labs zeigt Begrenztheit von ChatGPT & Co.

12.08.2024 von Michaela Hütig

KI-Modelle wie ChatGPT sind laut einer neuen Studie unter führender Beteiligung der TU Darmstadt offenbar weniger selbstständig lernfähig als bisher angenommen. Es gebe keine Hinweise darauf, dass die sogenannten Large Language Models (LLMs) anfingen, ein allgemeines „intelligentes“ Verhalten zu entwickeln, das ihnen etwa ein planvolles oder intuitives Vorgehen oder komplexes Denken ermögliche, heißt es in der Untersuchung. Die Studie wird im August auf der Jahrestagung der renommierten Association for Computational Linguistics (ACL) in Bangkok vorgestellt, der größten internationalen Konferenz zur Automatischen Sprachverarbeitung.

Bild: Tada Images - stock.adobe.com

Im Mittelpunkt der Forschung stehen unvorhergesehene und plötzliche Leistungssprünge der Sprachmodelle, die als „emergente Fähigkeiten“ bezeichnet werden. Wissenschaftler:innen hatten nach Einführung der Modelle festgestellt, dass diese mit zunehmender Größe und der Menge an Daten, mit denen sie trainiert wurden (Skalierung), leistungsfähiger wurden. So konnten die Tools mit zunehmender Skalierung eine größere Anzahl sprachbasierter Aufgaben lösen – beispielsweise gefälschte Nachrichten erkennen oder logische Schlussfolgerungen ziehen. Das weckte zum einen die Hoffnung, dass eine weitere Skalierung die Modelle noch besser machen würde. Zum anderen kam aber auch die Sorge auf, dass diese Fähigkeiten gefährlich werden könnten, da sich die LLMs quasi verselbständigen und der menschlichen Kontrolle womöglich entziehen. Als Reaktion wurden weltweit KI-Gesetze eingeführt, darunter in der Europäischen Union und in den USA.

Keine Beweise für differenziertes Denkvermögen

Die Autor:innen der aktuellen Studie kommen nun allerdings zu dem Schluss, dass es für die mutmaßliche Entwicklung eines differenzierten Denkvermögens der Modelle keine Beweise gebe. Stattdessen erlangten die LLMs die oberflächliche Fertigkeit, relativ einfachen Anweisungen zu folgen, wie die Forschenden zeigten. Von dem, was Menschen können, seien die Systeme noch weit entfernt. Die Studie wurde von TU-Informatikprofessorin Iryna Gurevych und ihrem Kollegen Dr. Harish Tayyar Madabushi von der University of Bath in Großbritannien geleitet.

Daher sollte der Fokus künftiger Forschung auf weiteren Risiken liegen, die von den Modellen ausgehen, beispielsweise auf deren Potenzial, zur Generierung von Fake News genutzt zu werden.

„Unsere Ergebnisse bedeuten jedoch nicht, dass KI überhaupt keine Bedrohung darstellt“, betonte Gurevych. „Wir zeigen vielmehr, dass die angebliche Entstehung komplexer Denkfähigkeiten, die mit bestimmten Bedrohungen verbunden sind, nicht durch Beweise gestützt wird und dass wir den Lernpozess von LLMs doch gut steuern können. Daher sollte der Fokus künftiger Forschung auf weiteren Risiken liegen, die von den Modellen ausgehen, beispielsweise auf deren Potenzial, zur Generierung von Fake News genutzt zu werden.“

Und was bedeuten die Ergebnisse nun für Nutzende von KI-Systemen wie ChatGPT? „Es ist wahrscheinlich ein Fehler, sich auf ein KI-Modell zu verlassen, um komplexe Aufgaben ohne Hilfe zu interpretieren und auszuführen“, erklärt Gurevych, die an der TU Darmstadt die Arbeitsgruppe Ubiquitous Knowledge Processing (UKP) am Fachbereich Informatik leitet. „Stattdessen sollten Nutzende explizit angeben, was die Systeme tun sollen, und wenn möglich Beispiele nennen. Wichtig ist: Die Tendenz dieser Modelle, plausibel klingende, aber falsche Ergebnisse zu erzeugen – die sogenannte Konfabulation – wird wahrscheinlich weiter bestehen bleiben, auch wenn sich die Qualität der Modelle in jüngster Zeit drastisch verbessert hat.“

Studie

Sheng Lu, Irina Bigoulaeva, Rachneet Sachdeva, Harish Tayyar Madabushi, Iryna Gurevych: Are Emergent Abilities in Large Language Models just In-Context Learning?