Sehlehrer für Computer

hoch³ Forschen 4/2017

21.01.2018 von

In digitalen Bildern und Videos steckt sehr viel mehr Information, als Computer derzeit aus ihnen gewinnen. Mit Hilfe lernfähiger Algorithmen will ein Forscherteam um Professor Stefan Roth ein Maximum an Wissen aus Bildern ziehen.

Professor Stefan Roth bei der Justierung einer Kamera zur kontrollierten Bildaufnahme. Bild: Katrin Binner

Auf dem Bildschirm im Büro von Stefan Roth ist eine typische Straßenszene zu sehen – aber aus dem „Blickwinkel“ eines Computers. Rot eingefärbte Autos parken ein und aus, violette Fußgänger wuseln umher, grün markierte Pflanzen kennzeichnen den Straßenrand. „Für den Computer besteht ein Video erst einmal nur aus Pixeln“, erklärt Informatik-Professor Stefan Roth. „Wir bringen ihm bei, Pixel zu interpretieren“, sagt der Leiter des Visual Inference Labs an der Technischen Universität Darmstadt. Roths Team lehrt lernfähigen Algorithmen, Autos, Fußgänger oder etwa potenziell gefährliche Gegenstände auf Röntgenbildern aus der Passagierkontrolle zu erkennen. Auch die Bildinformation, die sich hinter Verwacklungen oder Unschärfe verbirgt, rekonstruiert die von den Darmstädtern entwickelte Software. Die Forschungsfrage, die sie leitet: Wie viel Information lässt sich aus einem digitalen Bild herausholen?

Der Bedarf an automatischer Bildanalyse ist enorm. Millionen von digitalen Kameras erzeugen eine beispiellose Bilderflut. Könnten Computer nicht nur geordnete Straßenszenen, wie auf einer Autobahn, sondern auch chaotisch anmutendes Verkehrsgeschehen, etwa an einer Kreuzung, zuverlässig interpretieren, „dann wäre auch in belebten Innenstädten vollständig autonomes Fahren möglich“, sagt Roth. Und es gäbe viele weitere potenzielle Anwendungsfelder. Intelligente Bildanalysesysteme könnten Nutzer bei ermüdenden Tätigkeiten, etwa die Gepäckkontrolle an Flughäfen, unterstützen. Aus Satellitenbildern kann eine Flächen-Nutzung automatisch erkannt werden, beispielsweise auf welchen Feldern Weizen wächst.

Doch Computern das Sehen zu lehren, ist schwer. Vor Jahrzehnten versuchten Forscher, die menschliche Wahrnehmung nachzuprogrammieren. Doch sie scheiterten bislang weitgehend. „heutige Ansätze sind sehr stark datengetrieben“, sagt Roth. Computer lernen anhand einer Masse von Beispielen. Grundlage sind oft so genannte künstliche neuronale Netze. Diese sind inspiriert vom Aufbau des Gehirns: Nervenzellen, im Fachdeutsch Neuronen genannt, untereinander verbunden durch Nervenbahnen. Zeigt man einem solchen Netz Fotos mit Autos, dann stärken wiederkehrende Muster – Karosserie, Räder, Scheinwerfer – bestimmte Nervenbahnen. Tauchen ähnliche Muster auf unbekannten Fotos auf, werden über die verstärkten Nervenbahnen die gleichen Neuronen aktiv wie beim Training: Das neuronale Netz hat gelernt, auf Bildern Autos zu erkennen. Oder eben Fußgänger und Pflanzentöpfe. Der Haken: Beim Training muss man dem Computer auf jedem Beispielbild im wahrsten Wortsinn zeigen, wo das Auto, wo der Fußgänger und wo der Pflanzentopf ist. „Dafür haben wir anfangs eineinhalb Stunden pro Bild gebraucht“, berichtet Roth. Weil Computer erst nach Zigtausenden von Beispielen Dinge zuverlässig erkennen, sei das nicht immer praktikabel. „Wir versuchen daher erstens mit weniger Daten auszukommen und zweitens, Datenquellen zu erschließen, in denen ein Teil der Informationen schon steckt.“ So zeigen Computerspiele zum Verwechseln realistische Straßenszenen. Auf einem Foto einer realen Szene müssen die Forscher erst mühsam die Einzelobjekte voneinander abgrenzen, sprich ihre Konturen nachzeichnen. „Im Computerspiel hingegen sind die einzelnen Objekte schon getrennt“, erklärt Roth. Man müsse dem neuronalen Netz nur noch sagen, was davon als Auto oder was als Straßenbelag zu bewerten ist. [mehr]

Den vollständigen Artikel können Sie in der aktuellen hoch³ Forschen 4/2017 lesen.