Sie ist intelligent, schön und einfühlsam. Die Rede ist von Ava, ein weiblicher Androide aus dem Film „Ex Machina“. Auch wenn sie wie ein Mensch aussieht und handelt, ist sie keiner. Was diese humanoide Maschine von anderen Robotern unterscheidet, ist ihre Fähigkeit, eigenständig zu sprechen und zuzuhören – und das Gehörte zu verarbeiten. Während Hollywood schon seit Jahrzehnten auf der Leinwand künstliche Intelligenz leben lässt, sind wir in der Realität noch weit davon entfernt. Um Computersysteme entwickeln zu können, die Sprache fehlerfrei verarbeiten, fehlt noch ein entscheidender Schritt: Ihnen muss zuerst das Verstehen menschlicher Sprache beigebracht werden. Daran arbeiten Wissenschaftler der Universität Stuttgart.
Computerlinguist Sebastian Padó, Professor am Institut für Maschinelle Sprachverarbeitung, erforscht das Prinzip des Sprachverstehens. Denn es sind vor allem die Zusammenhänge in der Sprache, mit denen Computer bislang noch nichts anfangen können. Sie sind nicht in der Lage, unausgesprochene oder implizite Anteile im Sprachgeschehen zu erkennen. Der Mensch hingegen kann durch Erfahrungswissen das Gehörte sofort in Beziehung zu dem setzen, was er weiß. „Ein Computer hat kein eigenes Wissen über Sprache“, so Padó. „Für ihn besteht ein Satz ausschließlich aus einer Reihe von Symbolen. Damit kann er zunächst nichts anfangen.“ Das möchten der Professor und sein Team in Zukunft ändern.
Dazu beschäftigen sie sich vor allem mit der sogenannten distributionellen Bedeutungsbeschreibung: Sie versuchen, dem Computer Bedeutung beizubringen. „Das machen wir, indem wir ihm sagen: Schau dir an, wie die Wörter verwendet werden, die wir dir sagen“, erläutert Padó. Das funktioniert im Grunde ein bisschen so, wie beim Menschen, wenn er eine neue Sprache praktisch erlernt.
Schrittweises Herantasten
Das soll der Computer künftig ebenfalls können. Hierfür tastet sich das Team Schritt für Schritt an die Bedeutung eines Begriffs heran und bezieht die vorausgehenden und nachfolgenden Satzteile mit ein. Dieser Prozess lässt sich so beschreiben: Hören Menschen ein unbekanntes Wort – „Gurmel“ beispielsweise –, können sie es zunächst nicht einordnen. Der Zusatz „steht im Stall“ legt jedoch nahe, dass es vermutlich ein Tier sein könnte. Folgt dann noch „und macht muh“, handelt es sich ziemlich sicher um eine Kuh. „So ähnlich gehen wir auch bei unserer Forschung vor“, erklärt Padó. „Dazu geben wir dem Computer eine sehr große Menge Text und lassen ihn auswerten, welche Wörter in welchem Zusammenhang verwendet werden.“
Anwendung findet dieses Prinzip beispielsweise bei Suchmaschinen, die auf diese Weise nicht nur nach dem Suchbegriff, sondern auch nach verwandten Wörtern suchen können. Ganz ähnlich arbeiten auch automatische Übersetzungssysteme, die auf der Basis von sehr großen Textsammlungen dieselbe Art von Analyse durchführen. Dadurch können sie ermitteln, wie Worte über Sprachen hinweg ähnlich verwendet werden und Vorschläge für Übersetzungen liefern.
Algorithmen müssen die Texte analysieren
Damit dem Computer das gelingt, müssen die Computerlinguisten konkrete Algorithmen entwickeln, die Texte entsprechend analysieren. „Dieser Teil unserer Arbeit verbindet Sprachwissenschaft mit Informatik und maschinellem Lernen“, so Padó. Das heißt, dass die Algorithmen nicht nur informatisch oder mathematisch motiviert sind, sondern auch von linguistischen Theorien. Beispielsweise prüfen die Computerprogramme von Padó einzelne Substantive mithilfe der zugehörigen Eigenschaftswörter und Verben, um so ihre Bedeutung zu lernen. „Durch unsere Algorithmen sieht der Computer, dass der Gurmel mit Eigenschaftswörtern wie groß und fleckig in Verbindung steht. Und dass er muh macht und wiederkäut. Durch all diese Zusatzinformationen weiß er dann, dass es sich um eine Kuh handelt.“
Bewährtes um neue Kenntnisse erweitern
Aus dem Zusammenspiel von sprachwissenschaftlichen Theorien und Algorithmen kann die Linguistik ebenfalls neue Erkenntnisse gewinnen. Denn die Analysen helfen dabei, linguistische Theorien zu bestätigen – können sie zum Teil allerdings auch über den Haufen werfen. „Wir sehen immer wieder in unseren Textkorpora, dass die Wirklichkeit nicht so einfach ist, wie es in den Theorien angenommen wird“, sagt Padó. Während die Linguistik nämlich davon ausgeht, dass Menschen grammatikalisch korrekte und demnach wohlgeformte Sprache sprechen, sieht es in der Realität meist anders aus.
„Zwischen einem Buch oder einer Zeitung und Kommentaren im Internet gibt es zum Teil gravierende Unterschiede“, so Padó. „In der Regel stehen da keine vollständigen, grammatikalischen Sätze.“ Abgesehen davon lassen sich die computerlinguistischen Methoden auch für linguistische Analysen einsetzen. „Wir untersuchen beispielsweise große Mengen an Text auf das Vorkommen bestimmter Wörter. Dadurch können wir das Aufkommen neuer Begriffe wie ‚Brexit‘ oder den Bedeutungswandel von Begriffen bestimmen“, erläutert Padó. Eine Sisyphusarbeit, die für einen Menschen kaum zu bewältigen ist. „Wir hingegen können ein Programm schreiben, das die Texte innerhalb weniger Minuten analysiert. Damit steht der Linguistik ein effektives Werkzeug zur Verfügung.“
Texte und Wissen zugänglich machen
Letztlich betreffen die Erkenntnisse aus Padós Forschung jeden Menschen. Zum Beispiel weil sie dabei helfen, Übersetzungssysteme oder sprachgesteuerte Programme noch weiter zu verbessern. Für Professor Padó gehören diese Anwendungsgebiete allerdings bereits zum technologischen Status quo. Viel spannender ist für ihn folgender Aspekt: Der Großteil des Wissens, das unsere Gesellschaft generiert, wird nach wie vor in Textform festgehalten. „Der Schlüssel zum Wissen ist also die Sprache“, so Padó.
„Unser Ziel ist es, Text für automatische Methoden erschließbar und damit die Daten für uns zugänglich zu machen. Das geht über eine bloße Google-Suche weit hinaus.“ Wohin ihn seine Forschung letztlich führen wird, ist den großen Fortschritten der vergangenen Jahre zum Trotz derzeit noch offen. „Wir sind noch Jahre davon entfernt, eine Maschine bauen zu können, die genauso gut sprechen, zuhören und sich Sprache beibringen kann wie ein Mensch.“ Bis dahin bleiben immer noch Hollywoods Filmvisionen von sprachverstehenden Computern und künstlicher Intelligenz. Constanze Trojan