Home           Inhalt           Das Thema
balken.gif (998 Byte)
Stuttgarter unikurier Nr.79/Juni 1998
Sonderforschungsbereich 340

Sprachtheoretische Grundlagen für die Computerlinguistik

(Linguistic Foundations for Computational Linguistics)

 

Erste Erfahrungen bei der maschinellen Sprachverarbeitung durch reine Praktiker (festgehalten in dem berühmt gewordenen ALPAC-Report von 1966) hatten gezeigt, daß die komplexen Aufgaben im Bereich der maschinellen Verarbeitung natürlicher Sprache nur auf der Basis solider linguistischer (und aus heutiger Sicht auch kognitionswissenschaftlicher) Grundlagen gelöst werden können. Dieser Einsicht folgt auch der SFB 340, der sich insbesondere mit den sprachtheoretischen Grundlagen für solche Anwendungen auseinandersetzt, die die Simulation eines sehr „tiefen" Sprachverständnisses voraussetzen, wie z.B. die Datenbankabfrage, die maschinelle Übersetzung, das intelligente Informations-Retrieval (z.B. im Internet) oder die automatische Textzusammenfassung.

kleinbal.gif (902 Byte)
 

Welche Forschungsschwerpunkte der SFB im einzelnen hat, läßt sich am einfachsten illustrieren, wenn man sie den einzelnen Teilschritten eines hier vereinfachten Verarbeitungsprozesses zuordnet. Die Auswertung einer natürlich-sprachlichen Eingabe beginnt, wenn man einmal von der im SFB nicht schwerpunktmäßig thematisierten Spracherkennung absieht, in der Regel mit einer syntaktischen Analyse des Eingabetextes. Diese Analyse liefert die syntaktische Struktur der Sätze des Eingabetextes in Form von Strukturbäumen und/oder Merkmalsstrukturen. Um Sätze einer Sprache automatisch syntaktisch analysieren zu können, benötigt man einerseits eine präzise Beschreibung der syntaktischen Regeln dieser Sprache und andererseits ein Verfahren, einen sogenannten Parsing-Algorithmus, mit dem man diese Regeln in ein Computerprogramm überführen kann. Beide Komponenten basieren auf dem Formalismus einer linguistischen Theorie.

 

Syntax
Die Verbesserung der Analyseverfahren und die präzise syntaktische Beschreibung bisher wenig erforschter linguistischer Phänomene bilden deshalb zunächst die Hauptansatzpunkte der Syntaxforschung des SFBs. Im Vordergrund steht aber auch - und das gilt nicht nur für die Syntax, sondern auch für alle anderen Teilbereiche - die Theoriebildung. Gerade die von ständiger Prüfung der empirischen Adäquatheit und formalen Tauglichkeit getriebene Weiterentwicklung der Theorien trägt entscheidend dazu bei, die Computerlinguistik langfristig auf bessere sprachtheoretische Grundlagen stützen zu können.

 

Bedeutung
Das zweite Forschungsfeld des SFBs, die Semantik, untersucht, wie sich die Bedeutung von Sätzen aus den Bedeutungen der Wörter (und Konstituenten) und die Bedeutung von Texten aus den Bedeutungen der Sätze ergibt. Analog zur Syntax benötigt man für die Interpretation von Texten Regeln und ein möglichst effizientes Verfahren, das syntaktisch analysierten Texten automatisch Repräsentationen ihrer Bedeutung zuordnet.

Einer durchaus zutreffenden Intuition folgend, wird manchmal behauptet, daß man einen Text erst richtig versteht, wenn man auch weiß, was aus ihm folgt. Bei der Interpretation von Texten handelt es sich demnach um einen Prozess, der ein relativ tiefes Textverständnis erfordert, da für die Interpretation stets auch Informationen relevant sind, die aus dem Text folgen.

 

Kontextwissen
Es ist deshalb nicht verwunderlich, daß gerade die Prinzipien und Mechanismen, die die Textinterpretation auf der Basis des Kontextwissens steuern, immer noch weitgehend ungeklärt sind. Sie sind immer noch Gegenstand der Grundlagenforschung und bilden ein weiteres Forschungsziel des SFBs.

Die in natürlich-sprachlichen Texten auftretenden Mehrdeutigkeiten, deren Verwaltung und Repräsentation insbesondere bei längeren Texten zu massiven Komplexitätsproblemen geführt hat, haben darüber hinaus neue Forschungsaktivitäten initiiert, die ihren Ursprung in der Computerlinguistik - genauer - in diesem SFB hatten. Um Mehrdeutigkeiten effizient handhaben zu können, wurde mit der Entwicklung eines Repräsentationsformalismus begonnen, mit dem man Mehrdeutigkeiten, wie etwa bei dem englischen Satz „He talked to the coach and the goalkeeper from Karlsruhe", unterspezifiziert repräsentieren kann. Solche kompakten semantischen Repräsentationen können parallel zur Verarbeitung des Kontextes dynamisch weiter spezifiziert werden, wenn die Verarbeitung Information liefert, die bestimmte Lesarten als 'nicht möglich' ausschließt.

Sie können aber auch zur Qualitätsverbesserung von Systemen, wie etwa maschinellen Übersetzungssystemen, beitragen. Eine kompakte Repräsentation von Bedeutungsalternativen eines Satzes ermöglicht es, in der Zielsprache nach einem Satz zu suchen, der, wie etwa der deutsche Satz „Er sprach mit dem Trainer und dem Torwart aus Karlsruhe", ebenso mehrdeutig ist. Bleibt bei der Übersetzung die Mehrdeutigkeit (soweit möglich) erhalten, ist das Ergebnis meist besser.

Die Repräsentation der Bedeutung eines Satzes oder Textes wird dann je nach Anwendung weiterverarbeitet und in den meisten Fällen wiederum in eine semantische Repräsentation, wie zum Beispiel die einer Antwort, überführt. Aus dieser werden schrittweise zunächst syntaktische Strukturen und schließlich ein Text erzeugt. Die dafür benötigten Verfahren, die sogenannten Generierungs-Algorithmen, basieren auf denselben syntaktischen und semantischen Regeln wie die Parsing-Algorithmen, nur arbeiten sie sozusagen in umgekehrter Richtung.

 

SFB 340

Sprecher:
Prof. Dr. Christian Rohrer, Institut für Maschinelle Sprachverarbeitung

 

Geschäftsstelle:
Institut für Maschinelle Sprachverarbeitung
Universität Stuttgart, Azenbergstr. 12, 70174 Stuttgart
Tel.: 0711-121-1352
Fax: 0711-121-1366

E-Mail: SFB340-Infos@IMS.Uni-Stuttgart.DE

 

Universität Stuttgart:

  • Institut für Maschinelle Sprachverarbeitung

Universität Tübingen:

  • Seminar für Sprachwissenschaft
  • Deutsches Seminar

 

Laufzeit: 1989 - 2000

 


last change: 09.06.98 / eng
Pressestelle der Universität Stuttgart

Home           Inhalt           Das Thema