Press Releases

UKP in the media

Darmstädter Echo: Quellensuche im virtuellen Raum

Das Darmstädter Echo berichtet über den UKP-Schwerpunkt “Digital Humanities” und das CEDIFOR-Netzwerk:

“Computer können Geisteswissenschaftlern helfen, effizient und schnell Antworten auf bestimmte Fragen zu bekommen, etwa wenn es um die Recherche und die Interpretation von Quellen geht. Das Werkzeug dazu liefern die ”Digital Humanities“. Dabei handelt es sich um ein interdisziplinäres Forschungsgebiet an der Schnittstelle von Informatik und Geisteswissenschaften. Ein neues Netzwerk hat sich zum Ziel gesetzt, künftig im Rhein-Main-Gebiet stärker zu kooperieren.”

zum Artikel

Presseecho zum PhD-Award von IBM für Christian Stab

Die Frankfurter Rundschau und das Darmstädter Echo berichten über den PhD-Award von IBM für Christian Stab. Der Doktorand arbeitet an automatischen Argumentationsanalysen.

Frankfurter Rundschau: Argumente sind messbar. 21.04.2016

“Der Nachwuchswissenschaftler der Technischen Universität Darmstadt Christian Stab beschäftigt sich in seiner Doktorarbeit mit der automatischen Erkennung und Bewertung von Argumenten. Dies tut er so erfolgreich, dass er den mit 20 000 Euro dotierten IBM-Preis gewonnen hat.” mehr

Darmstädter Echo: Nachwuchsforscher der TU Darmstadt entwickelt intelligente Schreibhilfe. 20.04.2016

“Ein Rechtschreibprogramm inklusive Grammatik und Zeichensetzung hat jeder Nutzer auf dem Computer. Ein Programm jedoch, das erkennt, ob man mit seiner Argumentation richtig liegt, gab es bislang noch nicht. Diese Lücke hat ein Doktorand der TU Darmstadt geschlossen – und dafür einen Preis gewonnen.” mehr

Frankfurter Rundschau: Auf der Suche nach Sprachwitz

Die Frankfurter Rundschau führte ein Gespräch mit Prof. Iryna Gurevych und beschreibt in einem Artikel vom 27.12.2012 das Projekt zur Bestimmung der Ähnlichkeit von Texten am UKP Lab. Die entwickelten Methoden können zur Entdeckung von Plagiaten beitragen.

“Informatiker der TU Darmstadt wollen Computer dazu kriegen, Texte mit ähnlichen Sachverhalten zu erkennen. Das ist nicht leicht, denn den Maschinen fehlt jenes Weltwissen, das der Mensch stets als Hintergrund parat hat.” mehr

01/2012 – Prof. Iryna Gurevych featured in Deutschlandfunk's Studiozeit

On January 12, 2012 UKP head Prof. Iryna Gurevych was featured in an episode of Studiozeit, a program of German public radio broadcaster Deutschlandfunk. Prof. Gurevych discussed the challenges faced in building intelligent computational systems for natural-language understanding such as semantic search engines. Opens external link in new window The entire program is now available for download on Deutschlandfunk's website.

2009/04, Artikel “hoch3”

Von der Wissenschaft, das Internet zu befragen

Im Gespräch: Lichtenberg-Professorin Iryna Gurevych von der Universität Darmstadt über automatische Textanalyse im Internetzeitalter

Sie stehen noch am Beginn ihrer Karriere und haben doch längst ein neues Forschungsfeld für sich abgesteckt – die erfolgreichen Bewerberinnen und Bewerber um eine Lichtenberg-Professur der VolkswagenStiftung. Dieses Förderinstrument gibt ausgewählten exzellenten Forschern die nötige Freiheit und die Ausstattung, ihre hochinnovativen Ideen verfolgen zu können. Und an den Universitäten, die in den Genuss einer Lichtenberg-Professur kommen, lassen sich auf diesem Weg neue Forschungsgebiete etablieren.

Vollständiger Artikel (pdf)

Artikel zur semantischen Suche auf Geotronics Workspace (29.4.2009)

Schneller finden mit semantischer Suche

Alles nur einen Klick entfernt – daran haben wir uns im Internet gewöhnt. Doch das Können von Google & Co. hat Grenzen: In beschränkten Umgebungen erbringen sie nur wenig präzise Ergebnisse, und eine externe Suchmaschine will man mit den meisten Firmeninterna auch gar nicht erst füttern. Die Folge: Im eigenen Archiv sucht man oft unkomfortabler als im weltweiten Netz. Das wird sich bald ändern. Die nächste Generation der Suchtechnologie steht bereits jetzt in den Startlöchern.

Vollständiger Artikel von Dr. Burchardt auf www.geotronics-workspace.de

Interview auf dem Heidelberger Innovationsforum

Am Ubiquitous Knowledge Processing Lab wurde das „Darmstadt Knowledge Processing Software Repository“ (DKPro) entwickelt. Damit wird das gezielte Auffinden von Dokumenten durch modernste Methoden der automatischen Sprachverarbeitung unterstützt. Aljoscha Burchardt erklärt im Interview mit Nadia Zaboura, wie die diese neuartige Suche im Produktiveinsatz funktioniert.

AcademicWorld

Software analysiert das Wissen in Wiktionary und Wikipedia

Informatiker der TU Darmstadt haben eine Software entwickelt, die es dem Computer ermöglicht, auf das eigentlich für menschliche Leser bestimmte Wissen in Online-Werken wie Wikipedia oder Wiktionary zuzugreifen. Diese Software bringt nicht nur den Traum des automatischen Sprachverstehens der Realisierung näher, sondern sie birgt dabei auch ein nicht zu unterschätzendes Potential etwa für Wörterbuchverlage. Mehr…

Hessen-IT News 03/2008

In der Print-Ausgabe der Hessen-IT-News präsentiert das UKP Lab Textmining-Technologie. Der Artikel findet sich auf Seite 10/11 des Heftes.

2008/06 – Article “Darmstädter Echo”

The “Darmstädter Echo” published an article about the project “Semantic Information Retrieval (SIR) at TU Darmstadt (8th August 2006). The project goal is to enrich search engines, so that they can analyze texts and understand their meaning.

”Das Wissen um die Bedeutung der Suchanfrage soll Alleinstellungsmerkmal von SIR gegenüber anderen Suchmaschinen sein."

In order to reach this aim, semantic technologies will be combined with conventional search methods. The results will be applied in the context of a system that automatically gives carreer guidance to teenagers.

2008/03 – Article “zwd-Magazin”

In March 2008, the zwd-Magazin published an article about a new search engine being developed at TU Darmstadt. The article focuses on the fact that the research team led by Iryna Gurevych consists of four women – a very uncommon situation in the area of informatics.

“Es war reiner Zufall, dass die ausgewählten Bewerberinnen alle Frauen sind, da sie für die Stellen besser qualifiziert waren.” (Iryna Gurevych)

The article also mentions the Emmy-Noether program that supports the funding of the project.

2008/03 – Article on Question Answering in “Berliner Zeitung”

In March 2008, Christian Meyer wrote an article for the Berliner Zeitung about the question answering research by Iryna Gurevych, Delphine Bernhard and Torsten Zesch (“Das Internet als bester Freund”). The article highlights the focus on internet forums as source for answers. In these forums, many questions have already been answered and this might be of greater use than standard search engine results that focus on keywords.

Immer mehr Menschen fragen im Internet andere Menschen nach Meinungen oder suchen Rat. (Iryna Gurevych)

Damit die Suche künftig genauere Ergebnisse bringt, arbeiten Gurevych und Kollegen an einer neuen Suchmaschine: Sie soll präzise Antworten finden – auch wenn die Frage genau so formuliert wird wie in einem normalen Gespräch. (Article Berliner Zeitung)

2006/09/05 – Article “FAZ”

On 5th September 2006, the Frankfurter Allgemeine Zeitung published an article about a search engine that understands conversational language. The research project is headed by Iryna Gurevych and works with three differen datasets.

  • 1) a corpus with texts from the social sciences
  • 2) a set of job descriptions from the Agentur für Arbeit
    The goal is to return the most suitable job option for teenager queries
  • 3) scripts and presentations from lectures, differing in style and tone

The article also celebrates the first successes: the research protoype programme already increased precision and recall in comparison to conventional approaches.

25.07.2016 Starkes Netzwerk der „Digital Humanities“ in der Region Rhein-Main

Rhein-Main-Universitäten möchten Kooperation intensivieren

Über 30 Wissenschaftlerinnen und Wissenschaftler der Universitäten in Darmstadt, Frankfurt und Mainz sowie außeruniversitärer Institutionen diskutierten auf einer Tagung in Darmstadt Themen an der Schnittstelle zwischen Informatik und Geisteswissenschaften und bekräftigten, dass sie ihre bereits enge Zusammenarbeit weiter vertiefen wollen.

Ziel der Kooperation ist es, die Forschung in den „Digitalen Geistes-, Kultur- und Sozialwissenschaften“ oder „Digital Humanities“ in der Rhein-Main-Region zu stärken und die dort vertretene Kompetenz zu bündeln. Ein deutschlandweit sowie international bekanntes Profil im aufstrebenden Forschungsfeld Digital Humanities wird neben den Studierenden der beteiligten Universitäten auch den Kunst- und Kultureinrichtungen in der Region zugutekommen. Die Kooperation wird unterstützt durch das vom Bundesministerium für Bildung und Forschung geförderte Centrum für Digitale Forschung in den Geistes-, Sozial- und Bil- dungswissenschaften (CEDIFOR) unter der Federführung der TU Darmstadt und der Goethe-Universität Frankfurt sowie durch das neu gegründete Mainzer Zentrum für Digitalität in den Geistes- und Kulturwissenschaften (mainzed), einem Zusammenschluss von sechs Forschungsinstitutionen am Wissenschaftsstandort Mainz.

Expertise im Rhein-Main-Verbund ergänzt sich ideal

„Die TU Darmstadt und die Goethe-Universität Frankfurt blicken auf viele Jahre äu- ßerst erfolgreicher Zusammenarbeit auf dem Gebiet der Digital Humanities zurück, die ursprünglich im Rahmen des LOEWE-Schwerpunkts 2011 im Land Hessen initiiert wurde“, so die Sprecherin des CEDIFOR, Prof. Dr. Iryna Gurevych vom Fachbereich Informatik der TU Darmstadt. Die so gelegten Grundlagen sollen durch den Verbund mit mainzed in Zukunft auf eine breitere Basis gestellt werden. Auf einer kürzlich an der TU Darmstadt veranstalteten Tagung betonten dementsprechend Sprecher der beiden Zentren das hohe Potenzial der Zusammenarbeit dank der komplementären Profile der beteiligten Institutionen.

Automatische Analyse von Metaphorik in der Wissenschaftssprache

Im Vordergrund steht nicht eine Dienstleistung der Informatik für geistes- oder sozialwissenschaftliche Forschungsvorhaben, sondern vielmehr die gleichberechtigte Zusammenarbeit in sorgfältig ausgewählten Projektkontexten. Aktuell wird beispielsweise an der automatischen Analyse von Metaphorik in der Wissenschaftssprache gearbeitet. Die automatisierte Auswertung von Massendaten ermöglicht dabei eine tiefgreifende Erforschung von metaphorischen Ausdrücken. Beispielsweise soll erörtert werden, ob während des Arabischen Frühlings gezielt Metaphern eingesetzt wurden, um Leser von einer bestimmten Meinung zu überzeugen.

Auf der Tagung wurden in insgesamt fünf Gruppen zu den Themen Digitale Philologie, Bild- und Objektverstehen, Online-Kommunikation sowie Virtuelle Rekonstruktion drängende Forschungsfragen identifiziert und erörtert. Der institutionelle Rahmen für

die so entstehenden Arbeitsgruppen soll durch die Gründung eines Rhein-Main-Verbunds für Digitale Geisteswissenschaften an den drei federführenden Universitäten geschaffen werden.

04.03.2015 Informatikwerkzeuge für die Geisteswissenschaft

Informatikwerkzeuge für die Geisteswissenschaft

Zentrum für Digitale Forschung liefert Expertise und Infrastruktur

Besondere Dienstleistung für Geistes-, Sozial- und Humanwissenschaftler, die ihr Feld mit moderner Technik voranbringen wollen: Das CEDIFOR – Centrum für Digitale Forschung in den Geistes-, Sozial- und Bildungswissenschaften unterstützt die Kolleginnen und Kollegen ab sofort mit Expertise und Infrastruktur. Die Sprecherschaft liegt im Wechsel bei Forscherinnen und Forschern der Technischen Universität Darmstadt und der Goethe-Universität Frankfurt.

Digitale Forschung steht für neue Möglichkeiten in der Bearbeitung geisteswissenschaftlicher Fragen durch die Nutzung moderner Informationstechnologien. Idee des Zentrums ist es, für Geistes-, Sozial- und Humanwissenschaftler, die ihr Feld mit moderner Technik voranbringen wollen, erste Anlaufstelle, Berater und Begleiter zu sein. „Viele Wissenschaftlerinnen und Wissenschaftler haben nur eine vage Vorstellung, was sie mithilfe von Informatikwerkzeugen erforschen können. Deshalb geben wir Hilfestellung bei der Auswahl der richtigen Verfahren und Werkzeuge aber ebenso bei der Formulierung der neuartigen wissenschaftlichen Fragestellungen, die mithilfe von IT erstmalig beantwortet werden können“, erklärt Iryna Gurevych, Informatikprofessorin für Ubiquitäre Wissensverarbeitung in Darmstadt und aktuell stellvertretende Sprecherin des Zentrums.

Für die Beratung werden sowohl eine leistungsfähige Infrastruktur als auch das entsprechende Know-how in Darmstadt und Frankfurt aufgebaut. Die Darmstädter Forscher konzentrieren sich auf textanalytische Methoden mit komplexen Werkzeugen, die ein breites Spektrum an Fachrichtungen und Projekten abdecken können. Beispielsweise arbeiten die Forscherinnen und Forscher an der automatischen Erstellung von Persönlichkeitsprofilen auf Basis von Interviewtexten von Verdächtigen. Diese könnten zukünftig die Arbeit von Sozial- und Humanwissenschaftlern, z.B. Gerichtsgutachtern unterstützen.

„Unsere Programme erschließen zwar ganz neue Forschungsmöglichkeiten, aber niemand kann die Intelligenz und das Wissen der Wissenschaftlerinnen und Wissenschaftler ersetzen. Es sind Werkzeuge, um die Unmengen digitaler Daten für die Untersuchungen handhabbar zu machen. Aber Werkzeuge sind immer nur genau so gut, wie ihre Nutzer“, betont Gurevych. Bei der Beratung und Begleitung der Projekte profitieren deshalb auch die Informatiker von dem Fachwissen der Geisteswissenschaftler. Denn ohne deren Projektideen und Daten könnten sie die Verfahren und Werkzeuge nicht testen und weiterentwickeln.

Dass die Einrichtung des Zentrums fächerübergreifend einen Nerv trifft zeigen auch die zahlreichen hochkarätigen Partner, die bereits ihr Interesse an einer Zusammenarbeit angemeldet haben: unter anderem die Deutsche Nationalbibliothek, das Städel-Museum und die Harvard University.

Hintergrund:

Das CEDIFOR – Centrum für Digitale Forschung in den Geistes-, Sozial- und Bildungswissenschaften wurde im Dezember 2014 von Forscherinnen und Forschern der TU Darmstadt und der Goethe-Universität Frankfurt sowie des Deutschen Instituts für Internationale Pädagogische Forschung (DIPF) gegründet. Verantwortlich eingebunden sind an der TU Darmstadt Prof. Iryna Gurevych sowie die Professorinnen Petra Gehring (Sprach- und Technikphilosophie) und Andrea Rapp (germanistische Computerphilologie). Das Zentrum führt die Arbeit des LOEWE-Schwerpunktes „Digital Humanities“ fort und wird vom Bundesministerium für Wissenschaft und Forschung (BMBF) über drei Jahre mit 2,1 Millionen Euro gefördert. Sprecher sind im Wechselturnus Iryna Gurevych, Informatikprofessorin für Ubiquitäre Wissensverarbeitung in Darmstadt und Jost Gippert, Professor für Empirische Sprachwissenschaft in Frankfurt, bei denen auch die Koordination des neuen Zentrums liegt.

25.2.2014 Was gute Biografien in Wikipedia ausmacht – und was nicht

Eine DIPF-Studie zeigt: Automatische Textanalysen können dabei helfen, die Qualität von Artikeln in dem Online-Lexikon zu verbessern

Es ist aufwändig, die Qualität der über 30 Millionen Artikel in Wikipedia manuell zu kontrollieren und zu

verbessern. Eine Studie des Deutschen Instituts für Internationale Pädagogische Forschung (DIPF)

zeigt jetzt, wie automatische Textanalysen diesen Prozess unterstützen können. Basis der Studie waren

Nutzerbewertungen von Biografien in Wikipedia – unterteilt nach den Kategorien „gut geschrieben“,

„glaubhaft“, „objektiv“ und „vollständig“. Die Bewertungen waren ein Jahr lang im englischsprachigen

Wikipedia erfolgt. Die Forscherinnen und Forscher um Professorin Dr. Iryna Gurevych, Direktorin des

Informationszentrums Bildung am DIPF, führten nun Analysen von besonders gut oder schlecht

bewerteten Biografien mit Informatik-Methoden des Text-Mining durch. Dabei konzentrierten sie sich auf

sprachliche Merkmale wie Worthäufigkeiten und Emotionalität der Aussagen. Zugleich untersuchten sie

Wikipedia-spezifische Eigenschaften wie das Alter des Eintrags sowie die Anzahl der Verlinkungen und

Revisionen. Professorin Gurevych resümiert: „Die Systeme konnten Artikelmerkmale identifizieren, die

bestimmte Qualitätsurteile erwarten lassen, woraus sich Hinweise auf Verbesserungsbedarf ergeben.“

Die vollständige Pressemitteilung des DIPF finden Sie hier.

Nähere Informationen zu der Studie: bit.ly/UKP_DIPF_Wikipedia_Biographies

16.9.2013 GSCL-Konferenz erstmals in Darmstadt

Sprachtechnologie erschließt Wissen im Web – Hauptkonferenz der GSCL erstmals in Darmstadt

Die Technische Universität Darmstadt richtet vom 23. bis zum 27. September 2013 in Zusammenarbeit mit dem Deutschen Institut für Internationale Pädagogische Forschung (DIPF) in Frankfurt die Jahrestagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL) aus. Die diesjährige Tagung steht unter dem Rahmenthema „Wissen im Web“ und adressiert die Analyse und Nutzung von Web-Daten für eine Vielfalt von Forschungsfragen sowie die dazu notwendige sprachtechnologische Forschung.

„Gerade in Anbetracht der jüngsten Debatten zu Plagiatsvorwürfen ist es dringend nötig, automatisierte Methoden zur Analyse von großen Textmengen und zur Unterstützung der Expertenarbeit einzusetzen“, erklärt Prof. Dr. Iryna Gurevych, die für die Organisation der Tagung verantwortlich ist. Gleichzeitig zeigt die Professorin für ubiquitäre Wissensverarbeitung aber auch den gesellschaftlichen Nutzen der erforschten Methoden auf. So wird in der Darmstädter Forschungsgruppe bereits seit geraumer Zeit an der Nutzbarmachung von Sprachtechnologie für bildungsbezogene Anwendungen geforscht. Laufende Arbeiten zielen unter anderem auf die computergestützte Diagnose von Fehlern in Schülertexten oder die automatische Generierung von Übungsmaterialien ab. „Das Internet wird zunehmend zur Kommunikation und als Wissensquelle genutzt“, so Gurevych weiter. „Gemeinschaftlich erstellte Plattformen wie beispielsweise Wikipedia konkurrieren mit etablierten Experten und Verlagen oder ersetzen diese im Alltag sogar. Das zeigt welches Potential in diesen Daten und Methoden steckt.“

Für die einwöchige Konferenz konnten gleich drei renommierte Gastredner von weltweit führenden Forschungsinstituten und vom Marktführer Google gewonnen werden. Die rund 200 internationalen Gäste erwartet ein abwechslungsreiches Programm mit Vorträgen, Workshops und Tutorials aus allen Bereichen der Sprachtechnologie.

Eine Besonderheit der Konferenz ist die Verleihung des mit 750 Euro dotierten GSCL-Preises für die beste studentische Abschlussarbeit aus den Jahren 2011 bis 2013. Die wissenschaftlichen Vorträge der drei Finalisten werden bereits mit besonderer Spannung erwartet. Dafür gibt es einen guten Grund: zwei der von einer externen Jury der GSCL in einem wettbewerblichen Verfahren ausgewählten Arbeiten stammen aus dem Fachbereich Informatik der TU Darmstadt. Hier werden die Nachwuchsforscher für die Sprachtechnologie der Zukunft ausgebildet.

09.07.2013. Zukunft der Bildungsprozesse liegt im virtuellen Raum

Namhafte Expertinnen und Experten geben auf Symposium von DIPF und TU Darmstadt aktuelle Einblicke in das Zusammenspiel von Informatik und Bildung

Ein vom Deutschen Institut für Internationale Pädagogische Forschung (DIPF) gemeinsam mit der Technischen Universität (TU) Darmstadt organisiertes Symposium beleuchtet heute am DIPF aktuelle Entwicklungen bei der fortschreitenden Virtualisierung von Bildungsprozessen. „Fortschritte in Web- und Sprachtechnologien ermöglichen individualisiertes und selbstgesteuertes Lernen auf einem neuen Niveau. Diesem Trend gehört die Zukunft“, sagt Professorin Dr. Iryna Gurevych, Professorin für „Ubiquitäre Wissensverarbeitung“ am DIPF und an der TU und Organisatorin des Symposiums. Mit den gemeinsamen Arbeiten von DIPF und TU auf dem Feld der Bildungsinformatik legen die Partner Grundlagen, um den neuen Anforderungen mit passgenauen Angeboten und Methoden zu begegnen.

Als Beispiel für die Breitenwirkung, die solche wissenschaftlichen Entwicklungen erzielen können, nennt Professorin Gurevych die von Massachusetts Institute of Technology und Harvard University entwickelte Software edX. Sie steht für sogenannte MOOCs (Massive Open Online Courses) frei zur Verfügung und kommt inzwischen weltweit zum Einsatz. Solche und weitere Entwicklungen stehen im Fokus des hochkarätigen Referentenfeldes des Symposiums. Die Fachleute erläutern und diskutieren virtuelle Lernumgebungen und deren Einschätzung aus Sicht der Bildungsforschung, neue Sprachtechnologien, die beispielsweise einen interaktiven und multimedialen Sprachunterricht ermöglichen, oder Anwendungen, mit denen sich Freitextantworten oder Kinderaufsätze automatisiert bewerten lassen.

Neben Vertreterinnen und Vertretern des DIPF und der TU Darmstadt, wie den Bildungsforschern Professor Dr. Eckhard Klieme und Professor Dr. Frank Goldhammer vom DIPF sowie den Informatikern Professorin Opens internal link in current windowIryna Gurevych und Dr. Christoph Rensing von der TU, steuern viele weitere Expertinnen und Experten Beiträge bei – darunter Professor Dr. Christoph Igel vom Deutschen Forschungszentrum für Künstliche Intelligenz, Professorin Dr. Ulrike Cress vom Leibniz-Institut für Wissensmedien, Professor Dr. Heinz Ulrich Hoppe von der Universität Duisburg-Essen und Professor Dr. Detmar Meurers von der Eberhard Karls Universität Tübingen.

Die vorgestellten Erkenntnisse bieten zahlreiche Anknüpfungspunkte für den neuen, interdisziplinären Forschungsschwerpunkt „Bildungsinformatik“ von DIPF und TU Darmstadt. Er baut auf Informationswissenschaft, Computerlinguistik und weiteren Forschungsgebieten der Informatik auf, nutzt bildungswissenschaftliche Grundlagen und verzahnt diese Fachdisziplinen auf innovative Art und Weise. Dabei werden theoretische Grundlagen, Mittel und Methoden erschlossen, um IT-basierte Werkzeuge auf bildungswissenschaftliche Fragestellungen anzuwenden. Die Wissenschaftlerinnen und Wissenschaftler arbeiten etwa daran, Texte automatisiert zu analysieren, Online-Suchverfahren intelligenter zu gestalten, die Analyse des Nutzungsverhaltens im Internet zu verbessern und virtuelle Forschungsumgebungen in unterschiedlichsten Disziplinen einzusetzen.

20.6.2012. Das Gleiche in Grün

Software der TU Darmstadt erkennt Texte, die mit anderen Worten etwas Ähnliches aussagen

Darmstadt, 20.06.2012. Eine an der TU Darmstadt entwickelte Software kann die Bedeutungen von Texten verstehen und erkennt zuverlässig ähnliche Aussagen – auch, wenn sie in anderen Worten ausgedrückt werden.

Für Computer sind freie Texte im Regelfall nicht mehr als eine Sequenz bestimmter Zeichen. Die Bedeutung dieser Zeichenketten, deren „Semantik“, bleibt dem Computer zunächst verborgen. Daher können Computer bislang auch nicht erkennen, wenn zwei Texte den gleichen Sachverhalt mit anderen Worten beschreiben. Um Rechnern beizubringen, dass etwa bei einem Hochwasser ein »sinkender Wasserstand« die gleiche Bedeutung hat wie die Aussage, der Pegel habe »seinen Scheitelpunkt überschritten«, haben Informatiker des Ubiquitous Knowledge Processing (UKP) Lab an der TU Darmstadt eine Software entwickelt und diese mit Hilfe eines maschinellen Lernverfahrens trainiert.

Anhand konkreter Texteigenschaften erschließt die Software die Bedeutung eines Textes und bestimmt aus einer Fülle von möglichen Indikatoren automatisch semantisch ähnliche Texte – auch wenn diese sich auf der Ebene der Zeichenketten, also der konkreten Worte, stark unterscheiden. Dazu nutzen die Wissenschaftler unter anderem maschinenlesbare Wörterbücher, sogenannte „Wortnetze“ sowie komplexe Modelle, die Texte in einem hochdimensionalen mathematischen Vektorraum repräsentieren und vergleichen. „Unser System funktioniert nicht nur auf bestimmten Daten, sondern ist mittlerweile auch auf vorab unbekannten Daten sehr solide einsetzbar“, sagt die Leiterin des UKP Lab, Prof. Dr. Iryna Gurevych. Beim internationalen Wettbewerb Semantic Evaluation 2012 erzielte die Software bei der Aufgabe „Bestimmung semantischer Ähnlichkeit von Texten“ unter 35 konkurrierenden Teams die beste Leistung.

Die Software, die von Daniel Bär, Prof. Dr. Chris Biemann, Prof. Dr. Iryna Gurevych und Dr. Torsten Zesch entwickelt wurde, bietet zahlreiche Anwendungsmöglichkeiten: Unter anderem könnten Leser Empfehlungen für thematisch verwandte Dokumente erhalten und die Freitextantworten in groß angelegten Umfragen oder internationalen Kompetenzmessungen wie der PISA-Studie mit deutlich geringerem Aufwand ausgewertet werden.

Das UKP Lab ist in die internationale Forschung zu intelligenten Sprachtechnologien und Text-Mining eingebunden. Es arbeitet im Rahmen der seit 2012 begonnenen institutionellen Kooperation zwischen der TU Darmstadt und dem Deutschen Institut für Internationale Pädagogische Forschung (DIPF) in Frankfurt sowohl an anwendungsbezogener Theorie und Grundlagenforschung an der TU Darmstadt als auch an theoretisch fundierten Anwendungen der Sprachtechnologie in bildungsbezogenen Kontexten.

25.9.2009. Informationen schnell organisieren

Informationen schnell organisieren – Intuitives Wissensmanagement mit semantischer Sprachtechnologie

Darmstadt, 25.9.2009. Wissenschaftler von der TU Darmstadt entwickeln derzeit im Forschungsprojekt „Wikulu – Selbstorganisierende Wikis“ eine auf semantischer Sprachtechnologie beruhende Software, die das Problem unübersichtlicher und redundanter Wissenssammlungen etwa in Unternehmen lösen helfen soll.

Schon lange gibt es auch in Unternehmen Wiki-Software, mit der wichtige Informationen intern auch für andere Mitarbeiter leicht zugänglich gemacht werden soll. Wikis haben für Unternehmen viele Vorteile: In ein Wiki kann man schnell und von fast überall aus Informationen hinzufügen. Andere können auf diese zugreifen und sie gegebenenfalls aktualisieren und erweitern.

Der Erfolg der Online-Enzyklopädie Wikipedia zeigt eindrucksvoll, dass Wikis sehr erfolgreich zum Wissensmanagement eingesetzt werden können. Doch in vielen anderen Fällen fehlen die Heerscharen von hochmotivierten “Wikipedians”, die in ihrer Freizeit mit großem Aufwand die Inhalte strukturieren und verbessern. Gerade in Unternehmen entwickeln sich Wikis oft unkontrolliert zu einem zwar reichhaltigen, aber unübersichtlichen Informations-Chaos. Damit gerät das Prinzip “Wiki” an seine Grenzen, denn schnell verliert der Einzelne den Überblick über die Fülle der Informationen.

Mitarbeiter der Arbeitsgruppe “Ubiquitous Knowledge Processing” (UKP Lab) der TU Darmstadt erforschen derzeit unter Leitung von Prof. Dr. Iryna Gurevych, wie sich Ordnung in dieses Chaos bringen lässt. Das ist notwendig, da Wikis sich innerhalb der letzten Jahre auch im Unternehmensumfeld zu einem wichtigen Werkzeug entwickelt haben. In Wikis soll all das Wissen gesammelt werden, welches durch starr formalisierte Prozesse sonst nicht erfasst werden kann. Doch es ist eine große Herausforderung, die Benutzungshürden niedrig zu halten. Wikis sollen weiterhin schnell und einfach zu benutzen sein. Das UKP Lab versucht dieses Problem mit

einer intelligenten Software basierend auf semantischer Sprachtechnologie zu lösen. Dadurch soll die Interaktion von Mensch und Maschine einfacher und intuitiver werden.

Projektkoordinator Torsten Zesch erklärt das mit einem Beispiel: “Ein großes Problem ist, wenn Informationen mehrfach hinzugefügt werden. Dabei kommt es dann oft zu Widersprüchen, zum Beispiel wenn eine neue Telefonnummer vom Chef eingetragen wird ohne die alte zu löschen. Für alle Benutzer des Wikis ist es dann schwierig zu entscheiden, welche davon korrekt ist. Ein Benutzer will aber nicht erst viele andere Einträge prüfen müssen, ob die Information irgendwo schon steht. Der Benutzer will es aufschreiben. Jetzt. Sofort. Und dann weiterarbeiten. Deshalb benutzt unsere intelligente Software semantische Sprachtechnologie, um automatisch alle Texte im Wiki zu analysieren. Die Software kann so feststellen, ob es bereits einen ähnlichen Eintrag gibt. Der Nutzer wird dann gewarnt und kann stattdessen den bereits vorhandenen Eintrag ergänzen.”

Die intelligente Software unterstützt den Benutzer auch noch bei weiteren zeitraubenden Tätigkeiten wie z.B. dem Anlegen von Links, dem Vergeben von Tags oder der Restrukturierung des Wikis. Dadurch wird es dem Benutzer weiterhin möglich sein, das Wiki als schnellen Wissensspeicher zu benutzen. Alle zeitraubenden und schwierigen Tätigkeiten werden von der intelligenten Nutzerschnittstelle vorbereitet und unterstützt. Dadurch verringert sich der benötigte mentale Aufwand zur Verwaltung der Daten im Wiki.

In gewisser Weise organisiert sich das Wiki dadurch selbst, weshalb das von der Klaus Tschira Stiftung geförderte Forschungsprojekt den Namen “Wikulu – selbstorganisierende Wikis” trägt. Der Name “Wikulu” setzt sich dabei aus den hawaiianischen Wörtern “wiki – schnell” und “kukulu – organisieren” zusammen. Wikulu integriert sich nahtlos in gängige Unternehmenswikis. Bestehende Wiki-Systeme müssen dabei nicht ersetzt, sondern werden einfach mit den intelligenten Fähigkeiten erweitert.

Prof. Dr. Iryna Gurevych ist Leiterin des UKP Lab am Fachbereich Informatik der TU Darmstadt. Die Arbeitsgruppe forscht seit mehreren Jahren führend im Bereich der Verbindung von Sprachtechnologie mit Wikis. Die vom UKP Lab entwickelten Softwarepakete zum Zugriff und zur Analyse von Wikis JWPL und JWKTL werden weltweit von Forschungsgruppen in der wissenschaftlichen Arbeit eingesetzt. Die in Wikulu integrierten Methoden der Sprachtechnologie sind Teil der Softwaresammlung DKPro (Darmstadt Knowledge Processing Software Repository) basierend auf der offener Plattform “Unstructured Information Management Architecture” (UIMA) von IBM.

10.9.2009. Einfach wie ein “Post-it”.

Einfach wie ein “Post-it”. Intuitives Wissensmanagement mit semantischer Sprachtechnologie (10.9.2009)

Die beliebten gelben “Post-it” Sticker sind wohl eine der intuitivsten Formen des Wissensmanagements. Was wichtig ist (z.B. die neue Telefonnummer vom Chef), wird aufgeschrieben und irgendwo hingeklebt. Häufig an den Computer-Monitor. Was die Frage aufwirft: Warum hat man es nicht gleich mit Hilfe des Computers notiert? Das hätte doch eigentlich viele Vorteile: andere brauchen diese wichtige Information vielleicht auch, man kann mit dem Computer besser suchen, etc.

Schon lange gibt es auf dem Computer eine Software namens “Wiki”, die angetreten war genau dies zu erreichen. In ein Wiki kann man schnell und von fast überall aus Informationen hinzufügen. Andere können diese dann lesen und ggf. aktualisieren und erweitern. Damit gleicht ein Wiki einer Sammlung von elektronischen Post-It Stickern.

Der Erfolg der Online-Enzyklopädie Wikipedia demonstriert eindrucksvoll, dass Wikis sehr erfolgreich zum Wissensmanagement eingesetzt werden können. Doch in vielen Fällen fehlen die Heerscharen von hoch-motivierten “Wikipedians”, die in ihrer Freizeit mit großem Aufwand die Inhalte strukturieren und verbessern. Gerade in Unternehmen entwickeln sich Wikis oft unkontrolliert zu einem zwar reichhaltigen, aber unübersichtlichen Informations-Chaos. Damit gerät das Prinzip “Wiki” an seine Grenzen, denn schnell verliert der Einzelne den Überblick über die Fülle der Informationen. Man stelle sich seinen Monitor vor, der unter tausenden von Post-It Stickern verschwindet.

Mitarbeiter der Arbeitsgruppe “Ubiquitous Knowledge Processing” (UKP Lab) der TU Darmstadt erforschen derzeit unter Leitung von Prof. Dr. Iryna Gurevych wie man Ordnung in dieses Chaos bringen kann. Das ist notwendig, da Wikis sich innerhalb der letzten Jahre auch im Unternehmensumfeld zu einem wichtigen Werkzeug entwickelt haben. In Wikis soll all das Wissen gesammelt werden, welches durch starr formalisierte Prozesse sonst nicht erfasst werden kann. Doch die große Herausforderung ist es die Benutzungshürden niedrig zu halten. Wikis sollen weiterhin schnell und einfach zu benutzen sein. Das UKP Lab versucht dieses Problem mit einer intelligenten Software basierend auf semantischer Sprachtechnologie zu lösen. Dadurch soll die Interaktion von Mensch und Maschine einfacher und intuitiver werden.

Projektkoordinator Torsten Zesch erklärt das mit einem Beispiel: “Ein großes Problem ist, wenn Informationen mehrfach hinzugefügt werden. Dabei kommt es dann oft zu Widersprüchen, z.B. wenn eine neue Telefonnummer vom Chef eingetragen wird ohne die alte zu löschen. Für alle Benutzer des Wikis ist es dann schwierig zu entscheiden, welche davon korrekt ist. Ein Benutzer will aber nicht erst Tausende andere Post-it Sticker lesen müssen, ob die Information irgendwo schon steht. Der Benutzer will es aufschreiben. Jetzt. Sofort. Und dann weiterarbeiten. Deshalb benutzt unsere intelligente Software semantische Sprachtechnologie, um automatisch alle Texte im Wiki zu analysieren. Die Software kann so feststellen, ob es bereits einen ähnlichen Eintrag gibt. Der Nutzer wird dann gewarnt und kann stattdessen den bereits vorhandenen Eintrag ergänzen.”

Die intelligente Software unterstützt den Benutzer auch noch bei weiteren zeitraubenden Tätigkeiten wie z.B. dem Anlegen von Links, dem Vergeben von Tags oder der Restrukturierung des Wikis. Dadurch wird es dem Benutzer weiterhin möglich sein, das Wiki als schnellen Wissensspeicher (ähnlich den Post-It Stickern) zu benutzen. Alle zeitraubenden und schwierigen Tätigkeiten werden von der intelligenten Nutzerschnittstelle vorbereitet und unterstützt. Dadurch verringert sich der benötigte mentale Aufwand zur Verwaltung der Daten im Wiki.

In gewisser Weise organisiert sich das Wiki dadurch selbst, weshalb das von der Klaus-Tschira-Stiftung geförderte Forschungsprojekt den Namen “Wikulu – Selbstorganisierende Wikis” trägt. Der Name “Wikulu” setzt sich dabei aus den hawaiischen Wörtern “wiki -- schnell” und “kukulu -- organisieren” zusammen. Wikulu integriert sich nahtlos in gängige Unternehmenswikis wie etwa MediaWiki, TWiki oder Confluence. Bestehende Wiki-Systeme müssen dabei nicht ersetzt, aondern werden einfach mit den intelligenten Fähigkeiten erweitert.

Prof. Dr. Iryna Gurevych ist Leiterin der Forschungsgruppe “Ubiquitous Knowledge Processing” (UKP Lab) am Fachbereich Informatik der TU Darmstadt. Die Arbeitsgruppe forscht seit mehreren Jahren führend im Bereich der Verbindung von Sprachtechnologie mit Wikis. Die vom UKP Lab entwickelten Softwarepakete zum Zugriff und zur Analyse von Wikis (JWPL und JWKTL) werden weltweit von Forschungsgruppen in der wissenschaftlichen Arbeit eingesetzt. Die in Wikulu integrierten Methoden der Sprachtechnologie sind Teil der Softwaresammlung DKPro – “Darmstadt Knowledge Processing Software Repository” basierend auf IBM's offener Plattform “Unstructured Information Management Architecture” (UIMA).

8.5.2009. Mit dem Computer sprechen?

Mit dem Computer sprechen?

Zwei IBM-Preise für Forschung zum automatischen Sprachverstehen für TU-Informatiker

Darmstadt, 8.5.2009. Am kommenden Donnerstag, 14. Mai 2009, wird die Arbeitsgruppe „Ubiquitous Knowledge Processing“ (UKP-Lab) von Lichtenberg-Professorin Dr. Iryna Gurevych am Fachbereich Informatik der TU Darmstadt durch Erwin Jung, Leiter der IBM University Relations, mit zwei „Unstructured Information Analytics“ Awards ausgezeichnet. Die Awards wurden der Arbeitsgruppe im Dezember 2008 zuerkannt. Darüber hinaus wird Torsten Zesch, Doktorand am UKP-Lab, mit einem IBM Ph.D. Fellowship Award ausgezeichnet.

Die Auszeichnungen werden im Rahmen einer Feierstunde vergeben, im der auch das einjährige Bestehen der Lichtenberg-Professur gefeiert wird. Die Feier findet am Donnerstag, 14. Mai 2009, ab 16.15 Uhr im Robert-Piloty-Gebäude (Geb. S2|02, Raum C120), Hochschulstraße 10, 64289 Darmstadt, statt. Die Auszeichnung einer Arbeitsgruppe mit gleich zwei der mit jeweils 20.000 US-Dollar dotierten Awards ist weltweit einmalig. Die erste Auszeichnung ist für die Entwicklung eines Grundlagenkurses bestimmt, der die Vermittlung aktueller Trends im Bereich des automatischen Sprachverstehens an Informatik-Studierende zum Ziel hat. Das UKP-Lab hat ein innovatives Konzept für die universitäre Lehre entwickelt, dass in eine Referenz-Lehrveranstaltung für die Vermittlung der sogenannten IBM „Unstructured Information Management Architecture“ (UIMA) in einem forschungsnahen universitären Umfeld münden soll. Dieses Vorhaben ist innerhalb eines Projekts im Emmy-Noether Programm der Deutschen Forschungsgemeinschaft zur Beantwortung von natürlichsprachlichen Fragen bei der Suche im Web 2.0 angesiedelt.

Mit der zweiten Auszeichnung fördert IBM das Projekt „DKPro-ML“, das Teil des laufenden Forschungsvorhabens “Darmstadt Knowledge Processing Software Repository” am UKP-Lab ist. DKPro-ML soll ein Framework von UIMA-basierter Open-Source-Software für das maschinelle Lernen bereitstellen, um die Integration aktuellster Sprachverstehens-Technologien und Techniken des maschinellen Lernens entscheidend zu verbessern.

Bereits im Jahr 2007 wurde Prof. Dr. Iryna Gurevych mit einem UIMA Innovation Award ausgezeichnet. Ihr Forschungsfeld ist das automatische Sprachverstehen mit Schwerpunkten im Bereich Informationssuche und Trend-Analyse im Web 2.0.

Mit Lichtenberg-Professuren fördert die VolkswagenStiftung herausragende Wissenschaftler in innovativen Lehr- und Forschungsfeldern. Das Angebot richtet sich an exzellente Forscher nach der Promotion, die mit ihrer Arbeit in einem innovativen Feld auf sich aufmerksam gemacht haben und deren Arbeiten international anerkannt sind.

30.1.2009. Computer 'lernen' vom Menschen: Software analysiert das Wissen in Wiktionary und Wikipedia

Pressemitteilung

Darmstadt, 30.1.2009. Informatiker der TU Darmstadt haben eine Software entwickelt, die es dem Computer ermöglicht, auf das eigentlich für menschliche Leser bestimmte Wissen in Online-Werken wie Wikipedia oder Wiktionary zuzugreifen. Diese Software bringt nicht nur den Traum des automatischen Sprachverstehens der Realisierung näher, sondern sie birgt dabei auch ein nicht zu unterschätzendes Potential etwa für Wörterbuchverlage.

Um Computern in bescheidenem Umfang Sprachverstehen und intelligentes Verhalten einzuhauchen, waren bislang oft sogenannte “regelbasierte Systeme” im Einsatz, wie sie etwa von Telefonauskunftssystemen oder Hilfefunktionen bei Software bekannt sind. Obwohl diese Systeme meistens sehr komplex aufgebaut sind und von Experten in mühsamer Handarbeit erstellt und optimiert werden, sind ihre Resultate für den Benutzer oft unbefriedigend.

Auf der anderen Seite träumte man schon seit der Geburtsstunde der Künstlichen Intelligenz in den 1960er Jahren davon, für Computer selbstständige Sprachfähigkeiten und vielleicht sogar eine Art Intelligenz zu entwickeln. Eine zentrale Idee war, dass Computer sich durch Bibliotheken lesen könnten und sich dabei jede Menge nützliches Wissen aneignen würden. In der Wirklichkeit war dieser Traum jedoch nicht umsetzbar. Zum einen fehlte schlicht die nötige Rechenleistung. Zweitens konnte nie zufriedenstellend geklärt werden, wie der Lernprozess eigentlich genau implementiert werden kann und schließlich mangelte es auch an geeigneten digitalisierten Inhalten.

Heute befindet sich die Forschung dabei in einer erheblich besseren Ausgangssituation: Die Rechenleistung moderner Rechnerverbünde ist gigantisch, und die Erfolge in der Entwicklung hocheffizienter statistischer Lernverfahren, wie sie beispielsweise bei der Informationssuche mit Google eingesetzt werden, haben Lösungen für viele Implementierungs-Fragen parat. Doch wie steht es mit digitalen Inhalten?

Online-Nachschlagewerke wie Wikipedia und das dazugehörige Wörterbuch Wiktionary erfreuen sich bei Internetbenutzern einer bisher nicht da gewesenen Beliebtheit. Diese “von Benutzern für Benutzer” geschaffenen Werke haben innerhalb kürzester Zeit eine beeindruckende Größe und Qualität erreicht. Sie sind bereits jetzt in vielen Hinsichten den klassischen Nachschlagewerken überlegen.

Computer haben es jedoch nicht leicht, auf das Wissen in Online-Werken zuzugreifen. Denn schließlich wurden diese Werke für Menschen und nicht für Computer geschaffen. Wissenschaftler des UKP Labs im Fachbereich Informatik der TU Darmstadt um Prof. Dr. Iryna Gurevych haben deshalb eine spezielle Software entwickelt, die das menschliche Wissen in Wikipedia und Wiktionary für Computerprogramme analysiert, bereinigt und aufbereitet.

“Während für Wikipedia mittlerweile eine Reihe von verschiedenen Zugriffsmöglichkeiten existieren, ist die Software für Wiktionary eine Neuheit. Sie verwandelt das Online-Werk in ein von Computern verarbeitbares multilinguales Netz, das Wörter verschiedener Sprachen miteinander verknüpft und zusätzlich ein große Menge an lexikographischer Information auf Knopfdruck bereitstellt”, sagt der Informatiker Christof Müller.

Aljoscha Burchardt vom Center of Research Excellence “E-Learning” an der TU Darmstadt fügt hinzu: “Die Möglichkeit, vom Wissen der Internet-Gemeinschaft mit Hilfe dieser Software zu profitieren, kann die Herstellung von herkömmlichen Wörterbüchern im Verlagswesen revolutionieren. Nicht nur durch Kosteneinsparung, sondern auch durch viel größere Aktualität und thematische Breite, welche im Hinblick auf die ständig neuen Anforderungen in unserer Wissensgesellschaft ganz wichtige Faktoren sind”.

Die Informatiker an der TU Darmstadt wollen die Ergebnisse ihrer Arbeit den Forschern weltweit nicht vorenthalten. Sowohl die Wikipedia- als auch die Wiktionary-Analyse-Software ist für nicht-kommerzielle Forschungszwecke frei verfügbar. Dies erklärt Prof. Dr. Iryna Gurevych so: “Zum einen liegt uns sehr viel dran, die akademische Forschung im Bereich Sprachverstehen international voranzubringen und Synergie-Effekte zu schaffen. Zum anderen wollen wir den Standort TU Darmstadt weltweit im Bereich der semantischen Sprachverarbeitung profilieren.”

Teilweise ist dies bereits Wirklichkeit. Denn die Darmstädter Software für Wikipedia ist für alle Sprachen verfügbar, für die es spezifische Wikipedia-Editionen gibt. Und für Wiktionary haben die Wissenschaftler zunächst die englische und die deutsche Sprache angegangen. Der große Vorteil der Online-Werke, nämlich die Verknüpfungen zwischen den Wikipedia-Artikeln und den Wiktionary-Einträgen sowie unter den sprachenspezifischen Editionen werden dabei ausgenutzt, um verschiedene Sprachen automatisch übersetzen zu können. Ein Programm für die Informationssuche in einer Sprache, wo der Umfang der Online-Werke noch relativ klein ist, profitiert so vom Wissen der englischsprachigen Wikipedia-Gemeinschaft, die ungleich größer ist. So kann die Software des UKP Lab noch ein Vielfaches an Wissenspotenzial bereitstellen.

“Wir sind überzeugt, dass die von uns entwickelte Software der Wissensgewinnung zu qualitativen Sprüngen im Bereich des automatischen Sprachverstehens führen wird. Teilweise haben wir das automatisch gewonnene Wissen in eigenen Experimenten bei der Informationsrecherche, der Erkennung von Meinungen in freien Texten und der Beantwortung von natürlichsprachlichen Fragen bereits eingesetzt und überzeugende Verbesserungen festgestellt. Nachdem wir die grundlegenden Mechanismen für die Wissensgewinnung geschaffen haben, wird der Ausbau und die Verwertung ihres Potenzials in laufenden Forschungs- und Transferprojekten am UKP Lab unser Fokus sein”, so die Fachgebietsleiterin Prof. Iryna Gurevych.

Hintergrund

Die im Beitrag beschriebene Software wurde im Rahmen eines DFG-finanzierten Projekts zum Thema “Semantisches Information Retrieval” am UKP Lab geschaffen. Das UKP Lab wurde am Center of Research Excellence “E-Learning” an der TU Darmstadt vor etwa zwei Jahren gegründet. Seit April 2008 trägt die Arbeitsgruppe im Fachbereich Informatik der TU Darmstadt den Namen Lichtenberg-Professur “Ubiquitäre Wissensverarbeitung”. Diese Professur wird von der Volkswagen-Stiftung im Rahmen des nach dem Darmstädter Wissenschaftler Georg Christoph Lichtenberg genannten Exzellenzprogramms gefördert.

06.12.2008. Die Suche im Internet von morgen

Die Suche im Internet von morgen

Press Release 06.12.2008

Intelligentes Sprachverstehen bei der Suche nach Dienstleistungen

Wissenschaftler der TU Darmstadt erforschen neue Möglichkeiten des intelligenten Findens im kommenden „Internet der Dienste“. Mit einem in Entwicklung befindlichen System soll es zukünftig möglich sein, Anfragen wie zum Beispiel „Ich suche einen Dienst, der mir für ein Reiseziel die aktuellen Luft- und Wassertemperaturen liefert“ einzugeben, und als Ergebnis ausführbare Dienste für den gesuchten Zweck und keine herkömmlichen Webseiten zum Thema Urlaubsplanung zu finden. Das System wird derzeit von der Arbeitsgruppe Ubiquitous Knowledge Processing (UKP) am Fachbereich Informatik der TU Darmstadt unter Leitung von Prof. Dr. Iryna Gurevych und Prof. Dr. Max Mühlhäuser entwickelt.

Im WWW wird es zukünftig neben herkömmlichen Webseiten auch mehr und mehr Dienstleistungen geben, die über das Web genutzt werden können („Internet der Dienste“). Gerade im Business-Bereich sind diese sogenannten „Web Services“ von besonderer Bedeutung. Experten gehen davon aus, dass die kommerzielle Bereitstellung und Nutzung von Web Services eines der wichtigsten kommenden internetbasierten Geschäftsmodelle sein wird.

Angesichts der zu erwartenden Fülle von im Internet angebotenen Services wird es allerdings zunehmend schwierig, einen für eine bestimmte Anforderung passenden Service zu finden. Herkömmliche Internet-Suchmaschinen sind für die Suche nach Webseiten gedacht und funktionieren für Services nur sehr eingeschränkt.

Hier setzt die aktuelle Forschung der Gruppe UKP an: Das System bringt Methoden des intelligenten, Semantik-basierten Sprachverstehens bei der Suche nach Services zum Einsatz. Die Forschung wird im Rahmen des vom Bundesministerium für Wirtschaft und Technologie (BMWi) geförderten Teilprojektes TEXO innerhalb des IT-Leuchtturmprojektes THESEUS durchgeführt.

Der Sucherfolg des von Gurevych und Mühlhäuser entwickelten Systems ist dabei weitgehend unabhängig davon, wie die Funktion des Dienstes vom jeweiligen Dienstanbieter im Internet beschrieben wird. Möglich wird dies durch den Einsatz von in der Arbeitsgruppe entwickelten speziellen Verarbeitungsmethoden, welche die inhaltliche Ähnlichkeit von Wörtern wie z.B. „Reiseziel“, „Urlaubsziel“, „Urlaubsort“ und „Destination“ erkennen können. Selbst in den Fällen, in denen ein Dienstanbieter für einen Service gar keine aussagekräftige Beschreibung bereitstellt, kann das Darmstädter System durch geschickte Analyse des Programmcodes zumindest eine ungefähre Beschreibung automatisch extrahieren. Die Suchtechnologie ist nicht nur auf die Suche nach Web-Diensten, sondern auch auf die Suche nach herkömmlichen Dienstleistungen wie von z.B. Handwerkerleistungen anwendbar.

Die TU Darmstadt ist Forschungspartner im Teilprojekt TEXO des Forschungsprogramms THESEUS, in dem es um die Entwicklung einer neuen internetbasierten Wissensinfrastruktur geht. Weitere Partner des TEXO Projektes sind das Deutsche Forschungszentrum für Künstliche Intelligenz, empolis GmbH, Fraunhofer Gesellschaft, FZI Forschungszentrum Informatik Karlsruhe, intelligent views gmbh, ontoprise GmbH, SAP Research, Siemens AG, Technische Universität Dresden, Technische Universität München und Universität Karlsruhe (TH).

11.01.2008. Finden statt Suchen

Finden statt Suchen

Press Release 11.01.2008

TU-Forscherinnen arbeiten an intelligenter www-Suchsoftware

In einem Forschungsprojekt an der TU Darmstadt arbeitet ein Team von Informatikerinnen an Software-Werkzeugen, die dem Nutzer hilfreiche Antworten auf in natürlicher Sprache gestellte Fragen liefern soll. Dabei nutzen die Wissenschaftlerinnen das kollektive Wissen von Internet-Gemeinschaften, um Informationen mittels intelligenter Software im Internet zu finden.

„Was schützt meinen Computer vor Trojaner-Attacken?“ oder „Wie finde ich einen guten Kindergarten?“: Herkömmliche Suchmaschinen im Internet liefern oftmals tausende Webseiten auf eine Frage zurück. Darin die gesuchte Antwort zu finden bleibt dem Suchenden überlassen, eine zeitaufwändige, arbeitsintensive und unbeliebte Tätigkeit. Obwohl fast alle erwachsenen Internet-Nutzer Suchmaschinen benutzen, findet nur ein kleiner Teil die relevanten Informationen gleich beim ersten Suchversuch.

Kollaborativ erstellte Frage-Antwort-Plattformen im Web 2.0 sollen das ändern. In diesen Plattformen finden sich selbst auf schwierigste Fragen oft Antworten höchster Qualität. Die Popularität von Frage-Antwort-Plattformen, wie beispielsweise Yahoo!Answers, WikiAnswers oder AnswerBag, ist beachtlich. So zählt WikiAnswers mittlerweile mehr als eine Million Fragen, die in verschiedene inhaltliche Kategorien eingeteilt sind.

Doch die Suche nach Antworten in diesen Frage-Antwort-Wissensspeichern ist immer noch eine Suche nach der sprichwörtlichen Nadel im Heuhaufen. Zum einen macht es die schiere Menge an Informationen dem Nutzer extrem schwer, dort zu navigieren. Zum anderen werden inhaltlich identische oder sehr verwandte Fragen oft in unterschiedliche Worte gefasst und können deshalb mit herkömmlichen Suchmaschinenverfahren nicht gefunden werden.

In dem Forschungsprojekt wollen sich die Wissenschaftlerinnen des Ubiquitous Knowledge Processing (UKP) Lab an der TU Darmstadt dieser Herausforderung annehmen. Sie entwickeln intelligente Algorithmen im Bereich der automatischen Sprachverarbeitung, die unterschiedlich formulierte Fragen mit ähnlicher Bedeutung in den Frage-Antwort-Plattformen automatisch aufspüren.

Existiert bereits eine Antwort auf die gestellte Frage, wird diese dem Fragesteller unmittelbar angezeigt. Sollte eine Frage noch nie beantwortet worden sein, werden elektronische Dokumente im Internet durchsucht, um die Antworten dort aufzuspüren. Dabei werden verschiedene Wörter, die das Gleiche bedeuten, auf einen Suchbegriff abgebildet. Fragt etwa der Suchende nach „einem Programm, um den Computer vor Viren zu schützen“, werden relevante Dokumente zurückgeliefert, die den Begriff „Antiviren-Software“ enthalten.

Um die menschliche Sprachintelligenz nachzubilden, werten die Darmstädter Forscherinnen kollaborativ erstellte Web 2.0-Wissensquellen automatisch aus, wie die Online-Enzyklopädie Wikipedia oder das multilinguale Wörterbuch Wiktionary und machen das daraus destillierte Wissen den Sprachanalyseprogrammen zugänglich.

Ihren ersten Praxistest soll die neue Software im computerbasierten Lehren und Lernen bestehen. In der universitären und berufsbegleitenden Ausbildung ist das Problem der Informationsrecherche besonders akut – die Lernmaterialen unterliegen ständigen Veränderungen. Die Suche nach Antworten ist extrem aufwändig, der Zugriff auf den Wissensstoff ist erschwert, und Lehrveranstaltungen bieten oft wenig Raum, um Fragen persönlich zu stellen.

Das vor wenigen Monaten begonnene Projekt wird von der Computerlinguistin Dr. Iryna Gurevych geleitet. Die 31-Jährige Wissenschaftlerin ist Leiterin des UKP Labs am Fachbereich Informatik der TU Darmstadt und wissenschaftliche Direktorin des Forschungsschwerpunkts „E-Learning“ an der TU Darmstadt. Die Deutsche Forschungsgemeinschaft unterstützt die junge Wissenschaftlerin im Rahmen des Emmy Noether-Programms zur Förderung von exzellenten Nachwuchswissenschaftlern für die Dauer von fünf Jahren. Das Projektteam besteht übrigens ausschließlich aus Frauen – mehr als ungewöhnlich in einem technischen Fach und ganz im Sinne des Förderprogramms, das nach der deutschen Mathematikerin und Physikerin Emmy Noether benannt wurde.

Das UKP Lab zählt mittlerweile insgesamt zehn wissenschaftliche Mitarbeiter und Mitarbeiterinnen und bearbeitet eine Reihe von anspruchsvollen Forschungsprojekten. Zudem wurde die Gruppe kürzlich für ihre Forschungsarbeiten im Bereich des Sprachverstehens mit dem prestigeträchtigem “IBM UIMA Innovation Award” geehrt.

08.11.2007. Computer lernen Texte zu verstehen

Computer lernen Texte zu verstehen

Press Release 08.11.2007

IBM UIMA Innovation Award für TU-Forscher Gurevych und Mühlhäuser

Die Arbeitsgruppe “Ubiquitous Knowledge Processing” (UKP Lab) an der TU Darmstadt erhält den “IBM UIMA Innovation Award” für ihre Forschung im Bereich Textmining. Der Preis ist mit 24.000 US-Dollar dotiert. Die UIMA Innovation Awards werden von IBM seit 2006 weltweit an führende Wissenschaftler im Bereich des Unstructured Information Management vergeben.

Textmining bezeichnet das automatische Durchforsten und die Analyse von Texten im Internet oder im Firmennetzwerk, wobei der Computer versucht, den Sinn des Textes teilweise zu “verstehen”. Das Preisgeld wird für das Projekt “Enhancing the Darmstadt Knowledge Processing Repository to Meet Emerging Challenges in NLP Research” verwendet, das von Dr. Iryna Gurevych und Prof. Max Mühlhäuser am Fachbereich Informatik gemeinsam geleitet wird.

Das Team von Gurevych und Mühlhäuser arbeitet daran, interessante und wichtige Fakten aus Rohtexten mit Hilfe der Techniken des semantischen Informationsmanagements und des Textmining auszufiltern. “Darmstadt Knowledge Processing Repository (DKPro)” bezeichnet dabei eine Softwaretechnik zur Entwicklung von komplexen Textmining-Programmen, die große Ansammlungen von Textdokumenten im Web “verstehen”, beispielsweise natürlichsprachliche Beschreibungen von Dienstleistungen, Berufen, oder auch so genannte Community-Inhalte, wie Forenbeiträge, Blogs oder FAQs.

Ein prägendes Merkmal des Projekts ist es, dass kollaborativ erstellte Enzyklopädien wie beispielsweise Wikipedia genutzt werden, um das menschliche Wissen und das Sprachverstehen nachzubilden. Software-Komponenten aus dem DKPro-Projekt werden in die Lage versetzt, mit den Besonderheiten von Community-Inhalten, wie z.B. Schreibfehlern oder Smileys effizient umzugehen.

So könnten anschließend beispielsweise Meinungen von Studierenden über eine Vorlesung oder ihre Bestandteile in einem Forum automatisch gefunden und zur Rückmeldung an den Dozenten automatisch zusammengefasst werden. Textmining-Forscher profitieren vom DKPro, weil es die Anpassung von Algorithmen und Verfahren auf neue Anwendungsfelder oder Textarten wesentlich erleichtert. Damit könnte beispielsweise die Software von Vorlesungs-Bewertungen auf Hotel- und Produktbewertungen angepasst werden.

Mit dem Darmstadt Knowledge Processing Repository wollen die Informatiker einen Werkzeugkasten zum Bau von Textmining-Systemen weltweit zur freien Nutzung in der Forschung zur Verfügung stellen. Solche Systeme dienen der Gewinnung von Wissen aus unstrukturierten Texten im Web 2.0. Der Werkzeugkasten basiert auf der Grundlage von IBMs offener Plattform UIMA (Unstructured Information Management Architecture). Viele bislang aufwändige Schritte bei der Entwicklung von Textmining-Systemen werden so wesentlich vereinfacht. Neue Erkenntnisse können auf dieser Grundlage deutlich schneller und effizienter gewonnen werden.

Dr. Gurevych ist Leiterin der im Sommer 2006 gegründeten Forschungsgruppe UKP Lab im Fachbereich Informatik der TU Darmstadt, deren Forschung im Rahmen des Emmy Noether-Exzellenzprogramms für Nachwuchswissenschaftler der Deutschen Forschungsgemeinschaft sowie im Rahmen des deutschen Informatik-Leuchtturmprojekts THESEUS finanziert wird. Prof. Mühlhäuser leitet das Fachgebiet Telekooperation im Fachbereich Informatik der TU Darmstadt.

05.07.2007. TU Darmstadt erhält neue Lichtenberg-Professur

TU Darmstadt erhält neue Lichtenberg-Professur

Press Release 05.07.2007

Nachwuchs-Forscherin ergründet Sprachverarbeitung bei Wikis, Blogs und Podcasts

Eine von fünf Lichtenberg-Professuren der Volkswagenstiftung geht an die Technische Universität Darmstadt. Die erst 31-jährige Iryna Gurevych, Leiterin einer Forschergruppe am Fachbereich Informatik, kann zukünftig im Rahmen einer von der Volkswagenstiftung finanzierten Professur forschen. Gurevych beschäftigt sich mit Methoden der Sprachverarbeitung bei „E-Learning 2.0“.

Beim “E-Learning 2.0” verschwindet die klassische Unterscheidung zwischen Lehrern und Lernenden. Der Lernende wird selbst zum Wissenslieferanten und Autor in Wikis, Blogs und Podcasts. Damit diese neuen Wissensquellen sinnvoll ausgewertet werden können, ist es notwendig, die Technologien der automatischen Sprachverarbeitung im E-Learning weiterzuentwickeln. Hier setzt die neue Lichtenberg-Professur an: Iryna Gurevych, die ursprünglich aus der Sprachwissenschaft kommt, kann ihre linguistische Kompetenz in der neuen Professur optimal mit der Informatik verknüpfen. E-Learning stellt nämlich besonders für die automatische Sprachverarbeitung eine Herausforderung dar. Denn die Sprache der Web-Autoren ist nicht selten fehler- und lückenhaft sowie unstrukturiert. Ein Problem, dass jeder kennt, der schon einmal im Internet etwas gesucht hat: Welche Suchbegriffe soll man eingeben? Eine falsche Entscheidung führt schnell zu Unmengen an irrelevanten Suchergebnissen, in denen die gesuchte Information unweigerlich untergeht.

Die Volkswagenstiftung bewilligte insgesamt 5,6 Millionen Euro für die Einrichtung von fünf Lichtenberg-Professuren an deutschen Universitäten. Die Lichtenbergprofessuren der Volkswagenstiftung richten sich in erster Linie an herausragende Nachwuchswissenschaftler, die mit ihrer Arbeit in einem innovativen Feld auf sich aufmerksam gemacht haben. Mit 31 Jahren ist Iryna Gurevych von der Technischen Universität Darmstadt die jüngste Lichtenberg-Professorin.

Wer sucht, der findet: Suchmaschine der nächsten Generation

Press Release 02.08.2006

Computer sollen lernen, Fragen in natürlicher Sprache zu “verstehen”

“Ich suche Rezepte für Kuchen, die kein Obst enthalten.” – Keine Internet-Suchmaschine der Welt kann bisher sinnvoll mit solchen oder ähnlichen Anfragen umgehen. Auch die schon Computer-gerechter formulierte Anfrage “Rezept Kuchen kein Obst” führt nur zu tausenden von Fundstellen, in denen der Nutzer relevante Informationen immer noch wie eine Nadel im Heuhaufen suchen muss. Und viele interessante Fundstellen bleiben dennoch außen vor: Muffin- oder Guglhupf-Rezepte etwa werden so nicht gefunden.

Den Grund kennt jeder erfahrene Internet-Nutzer: Suchmaschinen liefern ausschließlich Fundstellen, die exakt den Suchbegriffen entsprechen, und verstehen von der Bedeutung der Suchanfrage kein Wort. Nutzer sind also gezwungen, exakte und abstrakte Suchanfragen zu formulieren – und erhalten trotzdem größtenteils irrelevante Informationen.

Bisher. Denn das könnte sich durch ein Forschungsprojekt an der TU Darmstadt demnächst ändern. Eine Gruppe von Wissenschaftlern des Fachgebiets Telekooperation am Fachbereich Informatik der TUD versucht im Rahmen des Projekts “Semantisches Information Retrieval” (SIR) Computer in die Lage zu versetzen, geschriebene Texte zu analysieren und zu verstehen.

Projektleiterin Dr. Iryna Gurevych vom Fachgebiet Telekooperation: “SIR soll es dem Nutzer erlauben, Suchanfragen in natürlicher Sprache zu stellen, aus denen das System dann die Suchbegriffe automatisch herausfiltert.” Anfragen wie im Beispiel der Kuchenrezepte würden so sinnvoll beantwortet. Außerdem wird das System mit Wissen über die Bedeutung von Wörtern ausgestattet werden. Dadurch kann es dem Nutzer auch Seiten liefern, die nicht nur die Suchbegriffe selbst, sondern auch verwandte Wörter enthalten, also nicht nur “Kuchen”, sondern auch “Muffins” oder “Guglhupf”.

Ihre erste Bewährungsprobe muss die neue Technologie jedoch auf einem auf den ersten Blick ganz anderen Feld bestehen: Die Forschergruppe entwickelt derzeit ein neuartiges System zur Unterstützung Jugendlicher bei der Berufswahl, in dem SIR erstmals eingesetzt werden soll. Dazu stellt die Bundesagentur für Arbeit die Beschreibungen von 5800 Berufen in Deutschland zur Verfügung.

Jugendliche, die das System mit einem Aufsatz über ihre beruflichen Vorlieben füttern, sollen vom System Vorschläge für mögliche Berufe bekommen. Die persönliche Beratung durch die Bundesagentur für Arbeit kann dadurch auf alternative Angebote ausgeweitet werden. Ein erster Prototyp soll bis Ende des Jahres bereitstehen. Das Projekt wird von der Deutschen Forschungsgemeinschaft gefördert.