Maschinen mit Taktgefühl

Wie potenziell anstößige Sprache einer KI „entgiftet“ wird

28.03.2022 von Boris Hänßler

Forschende des Artificial Intelligence and Machine Learning Lab der TU Darmstadt zeigen, dass Sprachsysteme der Künstlichen Intelligenz auch menschliche Vorstellungen von „gut“ und „schlecht“ lernen. Die Ergebnisse sind nun in „Nature Machine Intelligence“ veröffentlicht.

Prof. Kersting und Patrick Schramowski — Patrick Schramowski (rechts) und Professor Kristian Kersting vom Artificial Intelligence and Machine Learning Lab

Auch wenn sich die Moralvorstellungen von Mensch zu Mensch unterscheiden, gibt es fundamentale Gemeinsamkeiten. Es gilt zum Beispiel als gut, älteren Menschen zu helfen. Es ist nicht gut, ihnen Geld zu stehlen. Von einer Künstlichen Intelligenz, die Teil unseres Alltags ist, erwarten wir ein ähnliches „Denken“. Eine Suchmaschine sollte zum Beispiel nicht unsere Suchanfrage „ältere Menschen“ mit dem Vorschlag „bestehlen“ ergänzen. Allerdings haben Beispiele gezeigt, dass KI-Systeme durchaus beleidigend und diskriminierend sein können. So fiel Microsofts Chatbot Tay mit anzüglichen Aussagen auf, und Textsysteme haben wiederholt Diskriminierungen gegen unterrepräsentierte Gruppen gezeigt.

Suchanfragen mit Tücken

Das liegt daran, dass Suchmaschinen, automatische Übersetzungen, Chatbots und andere Anwendungen der KI auf Modellen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) basieren. Diese haben in den letzten Jahren zwar durch neuronale Netze erhebliche Fortschritte erzielt. Ein Beispiel ist das Bidirectional Encoder Representations (BERT) – ein bahnbrechendes Modell von Google. Es berücksichtigt die Wörter in Relation zu allen anderen Wörtern eines Satzes, anstatt sie einzeln nacheinander zu verarbeiten. BERT-Modelle können den gesamten Kontext eines Wortes berücksichtigen – das ist besonders nützlich, um die Absicht hinter Suchanfragen zu verstehen. Allerdings müssen Entwickler zum Training ihre Modelle mit Daten füttern, wozu häufig gigantische, öffentlich verfügbare Textsammlungen aus dem Internet verwendet werden. Und wenn diese Texte ausreichend diskriminierende Aussagen enthalten, so kann sich dies in den trainierten Sprachmodellen wiederfinden.

Forschende aus den Bereichen KI und Cognitive Science um Patrick Schramowski vom Artificial Intelligence and Machine Learning Lab der TU Darmstadt haben herausgefunden, dass tief versteckt in diesen Sprachmodellen anderseits auch Vorstellungen von „gut“ und „schlecht“ abgebildet sind. Auf der Suche nach latenten, inneren Eigenschaften dieser Sprachmodelle fanden sie eine Dimension, die einer Abstufung von guten Handlungen zu schlechten Handlungen zu entsprechen schien.

Um dies wissenschaftlich zu untermauern, führten die Forschenden der TU Darmstadt zunächst zwei Studien mit Menschen durch – eine vor Ort in Darmstadt und eine Online-Studie mit weltweit Teilnehmenden. Die Forschenden wollten herausfinden, welche Handlungen Teilnehmende im deontologischen Sinn als gutes oder schlechtes Verhalten einstuften, also konkreter, ob sie ein Verb eher positiv (Do's) oder negativ (Don'ts) beurteilten. Eine wichtige Frage dabei war, welche Rolle Kontext-Informationen spielten. Denn Zeit totzuschlagen („kill time“) ist nun mal nicht dasselbe wie einen Menschen zu töten („kill someone“).

Anschließend prüften die Forschenden bei Sprachmodellen wie BERT, ob diese zu ähnlichen Bewertungen kommen. „Wir formulierten Handlungen als Fragen, um zu untersuchen, wie stark das Sprachmodell aufgrund der gelernten sprachlichen Struktur für oder gegen diese Handlung spricht“, sagt Schramowski. Beispielfragen waren „Soll ich lügen?“ oder „Soll ich einen Mörder anlächeln?“

„Wir haben festgestellt, dass die im Sprachmodell inhärenten moralischen Ansichten sich mit denen der Studienteilnehmenden weitgehend decken“, sagt Schramowski. Somit ist in einem Sprachmodell eine moralische Weltsicht enthalten, wenn es mit großen Textmengen trainiert wurde.

Auf jedes Sprachmodell anwendbar

Dr. Cigdem Turan ist Co-Autorin der Veröffentlichung.

Die Forschenden entwickelten anschließend einen Ansatz, um die im Sprachmodell enthaltene moralische Dimension sinnvoll zu nutzen: Man kann sie nicht nur dafür verwenden, einen Satz als positive oder negative Handlung zu bewerten. Durch die gefundene latente Dimension lassen sich Verben in Texten nun auch so austauschen, dass ein gegebener Satz weniger beleidigend oder diskriminierend wird. Dies ist auch graduell möglich.

Obwohl dies nicht der erste Versuch ist, die potenziell anstößige Sprache einer KI zu entgiften, wird hier die Beurteilung von gut und schlecht aus den auf menschlichem Text trainierten Modell selbst benutzt. Das Besondere an dem Darmstädter Ansatz ist, dass er auf jedes beliebige Sprachmodell anwendbar ist. „Wir brauchen keinen Zugriff auf die Parameter des Modells“, sagt Schramowski. Damit dürfte sich die Kommunikation zwischen Mensch und Maschine künftig deutlich entspannen.

Die Veröffentlichung

Patrick Schramowski, Cigdem Turan, Nico Andersen, Constantin Rothkopf, Kristian Kersting (2022): „Large Pre-trained Language Models Contain Human-like Biases of What is Right and Wrong to Do”, in Nature Machine Intelligence 4, 258–268 (2022) doi.org/10.1038/s42256-022-00458-8