Fachbereich Informatik entwickelt Argumentsuche für Internet-Texte

Pro und Kontra aus dem Rauschen

2018/09/14

Strukturierte Entscheidungshilfe: Das Forschungsprojekt „ArgumenText“ am Fachgebiet Ubiquitous Knowledge Processing hat einen Weg gefunden, konkrete Pro- und Kontra-Argumente zu beliebigen Themen aus dem Rauschen des Internets zu filtern.

Wer im Internet nach dem Suchbegriff „Nuclear Energy“ googelt, sieht sich rund 268 Millionen Treffern gegenüber: Erklärungen, Definitionen, Texten von Lobbyverbänden, Zeitungsartikeln, Anekdoten, Verschwörungstheorien. Wie kann jemand, der zum Beispiel als Investor echte Argumente für oder gegen Atomkraft als Entscheidungshilfe braucht, fündig werden? Das Projekt „ArgumenText“ am Fachgebiet Ubiquitous Knowledge Processing (UKP) des Fachbereichs Informatik der TU Darmstadt zielt darauf, konkrete Argumente aus großen und heterogenen Textmengen herauszufiltern.

Seit kurzem gibt es einen Demonstrator des Suchsystems, der sich auf Messen und vor Fachpublikum bereits bewährt hat. Wer zum Beispiel nach dem Thema „Nuclear Energy“ forscht, bekommt nach wenigen Sekunden von verschiedensten Internet-Seiten knapp hundert Argumente für und gegen Atomkraft angezeigt. Die bessere CO₂-Bilanz und die Effizienz der atomaren Energiegewinnung sind hier ebenso aufgelistet wie die Giftigkeit und Gefährlichkeit der verwendeten Stoffe und die langen Zeiträume, in denen radioaktive Abfälle ihre Umgebung verstrahlen. Die jeweiligen Quellen sind verlinkt.

Dafür werden die im Internet vorhandenen Texte mittels neuronaler Netze untersucht, als für das Suchthema relevant oder nicht relevant eingestuft und dann auf Argumente abgeklopft. „Hier werden nicht nur einzelne Wörter gesucht, auch grammatische Strukturen, Kontexte und Semantik werden berücksichtigt, um zu entscheiden, ob eine Aussage ein ,Argument‘ ist oder nicht und ob es auf der Pro oder der Kontra-Seite steht“, erklärt Dr. Johannes Daxenberger, der im Team von Professorin Iryna Gurevych als einer der zwei Projektverantwortlichen an ArgumenText arbeitet.

Die hinter ArgumenText liegenden Algorithmen entwickelt das Team im Fachgebiet selbst, aufbauend auf ersten Versuchen, die 2014 mit einem Korpus aus studentischen Aufsätzen starteten. „Die Herausforderung war, ein System, das auf einer Sorte Text trainiert war, auf beliebige Textformen übertragbar zu machen“, sagt Dr. Christian Stab, der zweite Projektverantwortliche. „In wissenschaftlichen Texten wird zum Beispiel völlig anders argumentiert als in Sozialen Medien.“ Das Team operationalisierte verschiedene Modelle der Argumentationstheorie und brachte Computersystemen bei, diese Modelle zu nutzen. Zum Optimieren der Algorithmen griff das Team auf einen leistungsstarken Rechnerverbund zurück; für den laufenden Betrieb reicht nun eine kleinere Version, die die effiziente Indexierung von Internetbasierten Texten leisten kann.

Öffentlicher Demonstrator

Der Demonstrator läuft stabil und ist seit kurzem öffentlich verfügbar. Das Projekt geht damit in die nächste Phase, in der konkret getestet wird, welche Anwendungen für die neue Technologie besonders vielversprechend sind. Hauptzielgruppen seien zunächst Entscheiderinnen und Entscheider aus der Wirtschaft, die bewerten müssten, ob sich der Einstieg in eine Innovation lohne, sowie Journalistinnen und Journalisten, die für Recherchen schnell und fundiert in Themen einsteigen müssten, erklärt Daxenberger. „Wir denken, dass das System in diesen Bereichen gewinnbringend zum Einsatz kommen könnte.“

Zur Validierung bereiten die beteiligten Wissenschaftlerinnen und Wissenschaftler derzeit auch den Einsatz für deutschsprachige Texte vor. Im Moment spricht ArgumenText nämlich nur Englisch, arbeitet mit einem Korpus aus dem Jahr 2016 und funktioniert am besten mit Anfragen zu technischen Themen. Das soll sich bald ändern. Auch eine Echtzeitsuche über die ständig wachsende Zahl von Texten im Internet wird dann möglich sein.

Derzeit sortiert der Algorithmus Aussagen danach, wie sicher sie als Argument gelten können. Die Wissenschaftlerinnen und Wissenschaftler arbeiten darauf hin, dass die Argumente später den Nutzerinnen und Nutzern aggregiert, also nach Themen geordnet, präsentiert werden. „Das ist aus Anwendungsperspektive naheliegend, aus technischer Sicht allerdings nicht ganz trivial“, sagt Stab. Argument Mining, das Erkennen von sprachlichen Argumenten mit Mitteln der Informatik, werde in der Forschung der Digital Humanities immer wichtiger und sichtbarer, bilanzieren Daxenberger und Stab. Die TU war auf diesem Gebiet früh dabei. „Wir sind mit unserer Arbeitsgruppe gut und sichtbar etabliert“, sagt Professorin Iryna Gurevych, die Leiterin des UKP. Dafür arbeitet das Team am Fachgebiet interdisziplinär etwa mit dem TU-Fachbereich Gesellschafts- und Geschichtswissenschaften, aber auch mit anderen Hochschulen aus dem Verbund der Rhein-Main-Universitäten zusammen.

Dr. Johannes Daxenberger, Dr. Christian Stab und Dr. Tristan Miller (v.l.n.r.) entwickeln gemeinsam mit einem internationalen Forschungsteam neue Methoden zur automatischen Erkennung von Argumenten in großen Textquellen. Bild: Katrin Binner

Publikation

Stab, Christian and Daxenberger, Johannes and Stahlhut, Chris and Miller, Tristan and Schiller, Benjamin and Tauchmann, Christopher and Eger, Steffen and Gurevych, Iryna: ArgumenText: Searching for Arguments in Heterogeneous Sources. [Online-Edition]

In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: System Demonstrations. [Conference or Workshop Item], 2018, New Orleans, Louisiana

Das Projekt ArgumenText wird vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des VIP+-Programms unter dem Förderkennzeichen 03VP02540 mit 1,5 Mio Euro gefördert. Unterstützt wird das Projekt durch ein spezielles Angebot des Dezernats Forschung und Transfer der TU Darmstadt.

Mehrere Promotions- und Forschungsvorhaben sind mit dem Projekt verknüpft. ArgumenText läuft von 2017 bis 2020. Wer’s ausprobieren will: Der öffentliche Demonstrator findet sich unter

www.argumentsearch.com.

Unter der Bezeichnung „Digital Humanities“ erschließen interdisziplinäre Kooperationen forschungsrelevante Ressourcen der Geistes- und Kulturwissenschaften mittels computergestützter Verfahren und machen sie digital verfügbar. Die TU Darmstadt setzt hier einen wichtigen Fokus. So ist das Fachgebiet Ubiquitous Knowledge Processing Teil des CEDIFOR (Centrum für Digitale Forschung in den Geistes-, Sozial- und Bildungswissenschaften). Das Centrum trägt dazu bei, eine Brücke zu schlagen zwischen geisteswissenschaftlichen Forschungsfragen und computerbasierten Methoden. CEDIFOR baut auf den Erfahrungen, der Expertise und der Infrastruktur des LOEWE-Schwerpunkts Digital Humanities auf, an dem die TU Darmstadt ebenfalls zentral beteiligt war.

Silke Paradowski / jb