Geisteswissenschaftler im Maschinenraum

Goethe digital

Interdisziplinäre Werkstatt im Zeitalter der Digitalisierung – CRETA bietet einen neuen, fachübergreifenden Ansatz für die Analyse von Texten.

Was haben Goethes „Leiden des jungen Werther“ und Adornos „Ästhetische Theorie“ mit der „Parzival“-Sage und Reden im Bundestag gemeinsam? Sie stehen im Fokus eines Projekts von Philosophen, Politologen, Sprach- und Literaturwissenschaftlern an der Universität Stuttgart, das digitale Forschungsmethoden voranbringen soll. In Kooperation mit Computerlinguisten und Experten für Visualisierung wollen die Forscherinnen und Forscher künftig Maschinen programmieren, die schnell und effizient große Textmengen analysieren können. Ein neuartiger Ansatz der Zusammenarbeit, der den Geisteswissenschaften neue Erkenntnisse verspricht.

Wer in einer Geistes- oder Sozialwissenschaft forschen möchte, der muss in der Regel viel lesen. Doch so sehr man sich auch vertieft: Angesichts der Vielzahl an Quellen und Literatur bleibt die Recherche ausschnitthaft. Computer können hingegen große Textmengen innerhalb kürzester Zeit analysieren – allerdings bleiben sie dabei immer nur auf der Strukturebene. An der Universität Stuttgart hilft ein Forschungsverbund den digitalen Kollegen jetzt auf die Sprünge: Das Centrum für reflektierte Textanalyse (CRETA) will Textsammlungen maschinell auch inhaltlich analysieren. Der Leiter von CRETA, Prof. Jonas Kuhn vom Institut für Maschinelle Sprachverarbeitung (IMS), ist überzeugt, dass auf diese Weise eine neue Form der Textanalyse entstehen wird.

In der CRETA-Werkstatt arbeiten zahlreiche Disziplinen an digitalen Forschungsmethoden.
In der CRETA-Werkstatt arbeiten zahlreiche Disziplinen an digitalen Forschungsmethoden.

Digital Humanities, die „digitalen Geisteswissenschaften“, gelten als interdisziplinäres Fach der Geistes- und Kulturwissenschaften, das sich für seine Forschungszwecke der systematischen Anwendung computergestützter Verfahren bedient. Die Grundlagen für CRETA legten zwei Projekte, in deren Mittelpunkt der Einsatz digitaler Ressourcen zur Textanalyse stand: In „ePoetics“ entwickelt ein Team um die Literaturwissenschaftlerin Prof. Sandra Richter gemeinsam mit Kuhn und seinen Mitarbeitern Werkzeuge, um Schriften zur Dichtkunst aus drei Jahrhunderten maschinell zu untersuchen.

Die Politologin Prof. Cathleen Kantner und ihre Gruppe entwarfen gemeinsam mit Computerlinguisten im Projekt „e-Identity“ ein Programm, das knapp eine Million Zeitungsartikel auf die Frage hin durchforstete, inwiefern in einer Krise kollektive Identitäten wie Religion oder Nationalität zur Begründung eines bestimmten Handelns angeführt werden. Beide Teams beteiligen sich an CRETA, das das Bundesministerium für Bildung und Forschung für zunächst drei Jahre fördert. Hinzu kommen weitere Vertreterinnen und Vertreter aus den Literaturwissenschaften und der Linguistik, das Institut für Visualisierung und Interaktive Systeme sowie das IMS.

„Das Ministerium wollte an den Universitäten Zentren für Digital Humanities einrichten, die die Digitalisierung wissenschaftlicher Methoden vorantreiben“, erklärt Kuhn. Besonders froh ist er darüber, dass die Universität eine Professur für Digital Humanities am Institut für Literaturwissenschaft einrichtete. Auch deshalb erhielt CRETA Anfang 2016 den Zuschlag. Der Inhaber der neuen Professur, Gabriel Viehhauser, ist Teil des CRETA-Teams.

Computer erleichtern Textanalyse

„Bei uns schließen sich unter anderem Expertinnen und Experten aus den Literatur- und Politikwissenschaften sowie der Wissenschaftstheorie darüber kurz, welche Fragestellungen bei der Analyse von Texten in allen Disziplinen wiederkehren – dafür entwickeln wir dann geeignete Methoden. Dieser übergreifende Ansatz ist ein Novum“, sagt Kuhn. Da CRETA der Grundlagenforschung dient, entstehen vor allem Prototypen für Maschinenlernmodelle, die immer weiter optimiert werden. Wie Forschung auf dieser Basis aussehen könnte, beschreibt Kuhn anhand eines Beispiels. So ließen sich etwa Werkzeuge entwickeln, die in historischen Texten Datums- oder Ortsangaben identifizieren oder Eigenheiten in der Schreibweise.

„Wenn ich drei solcher Tools zusammenstecke, um sehr große Korpora zu analysieren, kann ich mein Augenmerk auf überraschende Konstellationen richten, die ich durch traditionelles Lesen nie gefunden hätte.“ Um Tools zu entwickeln, die für mehrere Fachrichtungen nützlich sind, begeben sich die Beteiligten zweimal jährlich für drei Tage in die CRETA-Werkstatt.

Als erstes Projekt kristallisierte sich dabei die Erkennung von Entitäten heraus, also das Dasein von Dingen, Personen oder Orten in Schriftstücken. Zwar können Computerprogramme schon heute Entitäten auffinden, doch die Geisteswissenschaften benötigen auch andere Analysekategorien. Damit der Computer die im Team erstellten Kriterien erkennen kann, werden die Beispieltexte mithilfe sogenannter Annotationen (Bemerkungen) markiert. Parallel dazu entwickeln die Computerlinguisten Werkzeuge, mit denen sich interessante sprachliche Merkmale in Texten auf unterschiedlichen Ebenen erkennen und auswerten lassen, die Informatiker suchen nach Möglichkeiten, die Ergebnisse zu visualisieren. Alle zwei Wochen erörtern die Forscher gemeinsam, wo sie stehen, welche Schwierigkeiten sich ergeben haben oder ergeben könnten, und verfeinern so ihre Werkzeuge.

Aufgabenteilung übers weltweite Netz

Neuland betritt die Gruppe, indem sie „shared tasks“ herausgibt: Dazu stellte sie ein Textkorpus mit Ausschnitten aus Werther, Parzival, der Ästhetischen Theorie sowie Reden unter anderem von Angela Merkel ins Internet. Weltweit sind Forschende aufgerufen, Analysewerkzeuge dafür zu entwickeln und unterschiedliche Ansätze auszuprobieren. „Es ist schon interessant, dass man in einer so heterogenen Sammlung von Texten dieselben Entitäten annotieren kann“, resümiert Dr. Nils Reiter, der das CRETA-Projekt inhaltlich koordiniert.

„Diese Shared-task-Idee wollen wir weiterentwickeln, weil wir glauben, dass das für Digital Humanities ein interessantes Konzept ist.“ Mittelfristig werden die Erkenntnisse aus CRETA auch in die wirtschaftliche Nutzung einfließen. Unternehmen etwa wollen automatisiert erfassen, wie Käufer Produkte auf Internetseiten bewerten. „Perspektivisch gibt es einen echten Bedarf, diejenigen, die sich sehr sorgfältig Gedanken darüber machen, was Texte bewirken, in die technologische Entwicklung einzubeziehen“, ist Kuhn sicher. Genau das will CRETA etablieren – weit über Goethe, Adorno und Merkel hinaus.
Daniel Völpel

  • Prof. Cathleen Kantner, Institut für Sozialwissenschaften, Abteilung für Internationale Beziehungen und Europäische Integration (SOWI III), Tel. +49 711 685-83425, E-Mail, Website
  • Prof. Jonas Kuhn, Institut für Maschinelle Sprachverarbeitung, Tel. +49 711 685-81365, E-Mail, Website
  • Dr. Nils Reiter, Institut für Maschinelle Sprachverarbeitung, Tel.  +49 711 685-81354, E-Mail, Website
  • Prof. Sandra Richter, Institut für Literaturwissenschaft, Neuere Deutsche Literatur I, Tel. +49 711 685-830 65, E-Mail, Website
Dieses Bild zeigt Mayer-Grenu
 

Andrea Mayer-Grenu

Wissenschaftsreferentin; Forschungspublikationen