Informationen zu

zur Startseite

Multiple kollektive Identitäten in internationalen Debatten um Krieg und Frieden seit dem Ende des Kalten Krieges. Sprachtechnologische Werkzeuge und Methoden für die Analyse mehrsprachiger Textmengen in den Sozialwissenschaften (eIdentity)

BMBF_Logo


Gefördert vom Bundesministerium für Bildung und Forschung von Mai 2012 bis April 2015


Aktuelles

Unser Projekt-Workshop „Computerlinguistische Methoden der Inhaltsanalyse in den Sozialwissenschaften“ fand im Rahmen der DHd-Jahrestagung 2015 vom 16.-17. Februar in Graz statt. Christopher Pollin berichtete ausführlich über Tag 1 und Tag 2 des Pre-Conference Workshops auf seinem Blog. Viel Spaß beim Lesen!

Projektbeschreibung




Wie mobilisieren internationale Akteure in Krisensituationen kollektive Identitäten? Spielen sie ethnische, religiöse, nationale, europäische, u.a. Bindungen gegeneinander aus? Welche Ursachenund Effekte hat diese Identitätspolitik? Das Projekt untersucht die internationale Diskussion über Kriege und humanitäre Interventionen seit dem Ende des Kalten Krieges. Es greift auf ein bereinigtes mehrsprachiges Korpus von mehreren hunderttausend Zeitungsartikeln aus der Qualitätstagespresse mehrerer europäischer Länder (A, D, Irland, F, UK) und den USA zurück (kontinuierlich erhobener Untersuchungszeitraum: Januar 1990 - Dezember 2011).

Sprachtechnologische Werkzeuge werden genutzt, um die Vielschichtigkeit der zu untersuchenden Indikatoren und den erheblichen Korpusumfang zu bewältigen. Der Forschungsverbund entwickelt Lösungen zur Überwindung bestehender Barrieren für den Einsatz computer- und korpuslinguistischer Verfahren.

1. Aus der Sicht der Computer- und Korpuslinguistik betreten wir Neuland, indem wir einen transparenten, individuell nutzbaren Complex Concept Builder entwickeln, mit dem komplexe Fachbegriffe für die Anwendung an alltagssprachlichem Textmaterial in einem interaktiven Verfahren operationalisiert werden. Der Complex Concept Builder integriert Tools zur Analyse der Beziehungen und Bewertungen, die Sprecher hinsichtlich ihrer kollektiven Identitäten äußern.

2. Die im Rahmen des Projekts entwickelten Analysewerkzeuge können darüber hinaus von der sozialwissenschaftlichen Community für eine breite Palette korpusanalytischer Anwendungen genutzt werden, einschließlich der Erfassung und semi-automatischen Kodierung von large-n Textsamples. Eine Explorationswerkbank zur Korpuserstellung und -erschließung wird auch über das Projektende hinaus als flexibles Bindeglied zu vorhandenen Infrastrukturen dienen.

Methode

Um der Vielschichtigkeit der im Korpusmaterial zu untersuchenden Indikatoren ebenso Rechnung zu tragen wie dem erheblichen Korpusumfang und dem Nebeneinander von deutsch-, englisch- und französischsprachigen Texten, wird die Analyse sprachtechnologische Werkzeuge und Methoden nutzen, die in den Sozialwissenschaften bislang nur in Ausnahmefällen Anwendung fanden. Es erstellt dazu einen mehrsprachigen Korpus, der den Zeitraum von 1990 bis 2012 abdeckt. Dieser Korpus wird in einem arbeitsteiligen Verfahren zunächst bereinigt und danach mit einer Anzahl neu entwickelter automatischer sowie semi-automatischer Analysewerkzeuge codiert. Zu diesen Werkzeugen zählen insbesondere

  • ein transparenter und lernfähiger Complex Concept Builder (CCB), mit dem komplexe fachwissenschaftliche Begriffe (wie der Identitätsbegriff inklusive der feinen Unterschiede und Nuancen zwischen verschiedenen kollektiven Identitäten) für die Anwendung an alltagssprachlichem Textmaterial operationalisiert werden können. Der CCB integriert zudem vorhandene Tools und aktuelle Methodenentwicklungen zur Analyse der Beziehungen und Bewertungen, die die Sprecher hinsichtlich verschiedener kollektiver Identitäten äußern.
  • eine interaktive, web-basierte Explorationswerkbank zur Korpuserstellung, -erschließung und -kodierung (-annotation). Diese wird Sozialwissenschaftlern auch über das Projektende hinaus als flexibles Bindeglied zu vorhandenen Infrastrukturen (z.B. CLARIN) dienen. Die Werkbank lässt sich unterschiedlichsten individuellen Forschungsfragen und Textmaterialien anpassen und bildet insbesondere auch die technische Basis für den CCB.


Schematische Illustration der Projektschritte:

Genutzte korpuslinguistische Ressourcen, Daten und Verfahren

Daten

In diesem Forschungsprojekt arbeiten wir mit einem nicht-öffentlich zugänglichen Korpus, der anhand von repräsentativen Keywords aus von öffentlichen Bibliotheken lizenzierten Volltextdatenbanken generiert wurde: ca. 1 Million Artikel aus Deutschland (FAZ, SZ), Österreich (Der Standard, Die Presse), Frankreich (Le Monde, Le Figaro), UK (The Guardian, The Times), Irland (The Irish Times, The Irish Independent), USA (New York Times, Washington Post).

Erprobte Verfahren

  • Konvertierung und Metadatenanalyse der Textsamples
  • Integration der Daten in ein Repository mit Web-Interface
  • Dublettenanalyse (ngram Analyse)
  • Indexierung der linguistischen Analysen (Postgres)
  • Maschinelle Teilannotation mithilfe von Webservices aus CLARIN-D:
    • Tokenisierung und Satzerkennung
    • Part-of-Speech Tagging (TreeTagger, RFTagger, Bohnet-Pipeline)
    • Lemmatisierung (TreeTagger, Bohnet-Pipeline, LemmaKorrektur)
    • Dependenzparsing (Bohnet-Pipeline)
    • Namenserkennung (Stanford-Pado)

 

Entstehende Ressourcen

Daten

Die externe Weiternutzung des Textkorpus ist nach derzeitigem Stand rechtlich nicht möglich.

Verfahren

  • Aufbau einer integrierten Explorationsdatenbank, die anschließend für andere Anwendungen nutzbar ist und folgende Funktionen in einem Interface vereint:
    • Konvertierung unterschiedlicher Quellformate, die
    • Filterung von Dubletten und Semi-Dubletten in den Archiven
    • Einbeziehung weiterer computerlinguistischer Konzepte und Werkzeuge (Wortart-Tagging, Parsing, Erkennung von Named Entities…)
  • Konstruktion des Complex Concept Builder inkl. web-basierter Oberfläche:
    • Keyword-basierte oder random-gesteuerte Exploration der Artikel

 

    • Semi-automatische sowie lernfähige Annotation mit interaktivem, web-basierten Codierungsinterface (inkl. Annotator-Verwaltung)
    • Integration von maschinellen Lernverfahren zur automatischen Erkennung von kollektiven Identitäten.
  • Korpuslinguistische, semi-automatische Kodiermethodik für die Erforschung komplexer sozialwissenschaftlicher Fragestellungen
  • Automatisches Themen-Clustering (Weiterentwicklung des Tools Dualist)
  • Erprobung der automatischen Identifizierung komplexer linguistischer Strukturen: Sprecher, Redeformen, spezifische Sprechakte
  • Integration der entstehenden Tools in CLARIN-D, insbesondere der Explorationsdatenbank und des CCB


Kooperationen

Teile der methodologischen und theoretischen Vorarbeiten basieren auf Ergebnissen vorheriger Projekte an der FU Berlin, die u.a. durch die Europäische Kommission im Rahmen der Forschungsinitiative RECON (Reconstituting Democracy in Europe) gefördert wurden.

Die im Verbundprojekt entwickelten Tools werden in die bestehenden eHumanities-Strukturen integriert, insbesondere im Rahmen des BMBF-geförderten Projekts CLARIN-D. Das IMS Stuttgart ist selbst als Infrastrukturzentrum in CLARIN integriert.

Durchführende Forschungseinrichtungen und Ansprechpartner

Universität Stuttgart, Institut für Sozialwissenschaften
- Leitung des Verbundprojekts und Verantwortung für die sozialwissenschaftlichen Fragestellungen

Prof. Dr. Cathleen Kantner
Institut für Sozialwissenschaften
Abteilung für Internationale Beziehungen und Europäische Integration
Breitscheidstr. 2, 70174 Stuttgart
Tel.: 0711-685-83425
cathleen.kantner@sowi.uni-stuttgart.de

Projektmitarbeiter:

PD Dr. Udo Tietz
Maximilian Overbeck

Universität Hildesheim, Institut für Informationswissenschaft und Sprachtechnologie,
Sprachtechnologie / Computerlinguistik
- Lexikalisch-terminologische Fragestellungen, „klassische“ Sentiment-Analyse

Prof. Dr. Ulrich Heid
Marienburger Platz 22, 31141 Hildesheim
Tel. 05121-883-832
heid@uni-hildesheim.de

Projektmitarbeiter:

Fritz Kliche

Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung
- Multilinguale syntaktisch-strukturelle Analyse, maschinelle Lernverfahren

Prof. Dr. Jonas Kuhn
Pfaffenwaldring 5B, 70569 Stuttgart
Tel. 0711-685-81365
jonas@ims.uni-stuttgart.de

Projektmitarbeiter:

André Blessing

Universität Potsdam, EB Kognitionswissenschaften, Angewandte Computerlinguistik
- Illokutionäre Analyse, pragmatisch geprägte Sentiment-Analyse

Prof. Dr. Manfred Stede
Karl-Liebknecht-Str. 24-25, 14476 Golm.
Tel. 0331-977-2691
stede@uni-potsdam.de
Website des Projektpartners

Projektmitarbeiter:

Jonathan Sonntag

Projektrelevante Publikationen

  • Al Khatib, K., Schütze, H. and Kantner, C. (2012) 'Automatic Detection of Point of View Differences in Wikipedia', in Proceedings of the 24th International Conference on Computational Linguistics, Mumbai, India: COLING '12, pp. 33-49.
  • Blessing, A., Kliche, F., Heid, U., Kantner, C. und Kuhn, J. (2015, in print) ‘Computerlinguistische Werkzeuge zur Erschließung und Exploration großer Textsammlungen aus der Perspektive fachspezifischer Theorie’, in C. Baum und T. Stäcker (Hrsg.), Sonderband 1 der Zeitschrift für Digital Humanities. URL: http://fvmww.diphda.uberspace.de/computerlinguistische-werkzeuge-zur-erschlie%C3%9Fung-und-exploration-gro%C3%9Fer-textsammlungen-aus-der.
  • Blessing, A., Stegmann, J., Kuhn, J. (2012) ‘SOA meets Relation Extraction: Less may be more in Interaction', in Proceedings of the Workshop on Service-oriented Architectures (SOAs) for the Humanities: Solutions and Impacts, Digital Humanities’, pp. 6-11.
  • Blessing, Andre; Schütze, Hinrich (2012) ‚Crosslingual distant supervision for extracting relations of different complexity, in Proceedings of the 21st ACM international conference on Information and knowledge management’, pp. 1123-1132 ACM.
  • Blessing, A., Sonntag, J., Kliche, F., Heid, U., Kuhn, J., Stede, M. (2013) ‘Towards a tool for interactive concept building for large scale analysis in the humanities’. In Proceedings of the 7th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. Association for Computational Linguistics (ACL), Sofia, Bulgaria. pp. 55–64. URL: http://www.aclweb.org/anthology/W13-2708.
  • Cap, F. and Heid, U. (2011) 'Distinguishing Specialised Discourse: The Example of Juridical Texts on Industrial Property Rights and Trademark Legislation', International Relations Working Paper, Stuttgart University, Stuttgart. • Heid, U., Kantner, C., Kuhn, J., Stede, M. (2014): e-Identity - Erschließung und Exploration von Textdaten in den Sozialwissenschaften. Poster der Stuttgarter Projektpartner zum Gesamtprojekt, präsentiert auf dem DH-Summit (März 2015, Berlin)
  • Kantner, C. (2015): War and Intervention in the Transnational Public Sphere. Problem-Solving and European Identity-Formation. London: Routledge/UACES Contemporary European Studies. http://www.routledge.com/books/details/9780415738149/
  • Kantner, C. (2015) 'National media as transnational discourse arenas: the case of humanitarian military interventions, in Th. Risse (eds) European Public Spheres: Bringing Politics Back In, Cambridge, MA: Cambridge University Press, pp. 84-107.
  • Kantner, C. (2014) 'The European public sphere and the debate about humanitarian military interventions', European Security, 23(4): 409-429.
  • Kantner, C. (2014, in print-a) 'Beyond the progressive era? Transnational political communication in the European Union', Quaderni di Sociologia, xx(xx): xx.
  • Kantner, C. (2011) 'European Identity as Commercium and Communio in Transnational Debate on Wars and Humanitarian Military Interventions', RECON Online Working Paper 2011/37, Arena Oslo, Oslo.
  • Kantner, C. (2011) 'Debating Humanitarian Military Interventions in the European Public Sphere', RECON Online Working Paper 2011/30, Arena Oslo, Oslo
  • Kantner, C. (2010) 'L’identité européenne entre commercium et communio', in L. Kaufmann and D. Trom (eds), Qu'est-ce qu'un collectif? Du commun à la politique, Paris: Éditions de l'École des Hautes Ètudes en Sciences Sociales (EHESS), pp. 221-247.
  • Kantner, C. (2006) 'Collective identity as shared ethical self-understanding: The case of the emerging European identity', European Journal of Social Theory, 9(4): 501-523.
  • Kantner, C., Kutter, A., Hildebrandt, A. and Püttcher, M. (2011) 'How to get rid of the Noise in the Corpus: Cleaning Large Samples of Digital Newspaper Texts', International Relations Working Paper, Stuttgart University, Stuttgart.
  • Kantner, C., Kutter, A. and Renfordt, S. (2008) 'The Perception of the EU as an Emerging Security Actor in Media Debates on Humanitarian and Military Interventions (1990-2006)', RECON Online Working Paper 2008/19, Arena Oslo, Oslo.
  • Kantner, C., Overbeck, M., (2015, forthcoming): Religiöse Identitäten als Diskursblocker. In: I.-J. Werkner & O. Hidalgo (eds.) Religiöse Identitäten in politischen Konflikten. Wiesbaden: VS Verlag.
  • Kantner, C., Overbeck, M. & Sangar, E., (2015, forthcoming): „Die Analyse „weicher” Konzepte mit „harten” korpuslinguistischen Methoden: Multiple kollektive Identitäten“. In: J. Behnke, A. Blaette, J.-U. Schnapp & C. Wagemann (eds.) Big Data: Große Möglichkeiten oder große Probleme? Baden-Baden: Nomos Verlag.
  • Kantner, C. and Tietz, U. (2013) 'Identitäten und multiple Identitäten. Über die wertrationale Integration der Gemeinschaften unter den Bedingungen der Moderne', in E. Crome and U. Tietz (eds), Dialektik - Arbeit - Gesellschaft. Festschrift für Peter Ruben, Potsdam: WeltTrends, pp. 47-63.
  • Kliche, F. und Heid, U. (2014). Sprachtechnologische Werkzeuge und Methoden für die Analyse mehrsprachiger Zeitungstexte in den Sozialwissenschaften. Poster präsentiert auf der 36. Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft (DGfS), Universität Marburg.
  • Kliche, F., Blessing, A., Heid, U. und Sonntag, J. (2014). The eIdentity Text Exploration Workbench. In: Proceedings of the 9. International Conference on Language Resources and Evaluation (LREC’14). Reykjavik, Island. European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2014/summaries/332.html
  • Kliche, F., Schmidt, N. und Heid, U. (2015). Ein Wizard für die Erschließung roher Textdaten. Poster präsentiert auf der 2. Jahrestagung der Digital Humanities im deutschsprachigen Raum (DHd-2015), Universität Graz.
  • Kolb, P., Kutter, A., Kantner, C. and Stede, M. (2009) 'Computer- und korpuslinguistische Verfahren für die Analyse massenmedialer politischer Kommunikation: Humanitäre und militärische Interventionen im Spiegel der Presse', in W. Hoeppner (ed.), Technischer Bericht Nr. 2009-01. GSCL-Symposium Sprachtechnologie und eHumanities, Duisburg: Universität Duisburg-Essen, pp. 62-71.
  • Kutter, A. and Kantner, C. (2012) 'Corpus-Based Content Analysis: A Method for Investigating News Coverage on War and Intervention', International Relations Online Working Paper 2012/01, Stuttgart University, Stuttgart.
  • Overbeck, M. (2015) ‘Post-secular or Post-religious? The Presence of Religion in Western Public Debates on Wars and Military Interventions.’ Paper presented at the Annual Conference of the International Studies Association (ISA), New Orleans (19.02.2015)
  • Overbeck, M. (2015) ‘European Debates During The Lampedusa Crisis 2011: Europe At Odds?’ Paper presented at the Annual Conference of the International Studies Association (ISA), New Orleans (19.02.2015)
  • Overbeck, M. (2015, forthcoming): 'Religion und religiöse Überzeugungen im 21. Jahrhundert. Ein Literaturbericht. ' in Berliner Debatte Initial. • Overbeck, M., (2015, forthcoming): Die Rückkehr der Religion in die politische Öffentlichkeit? Eine computerlinguistische Exploration der deutschen Presse von 1946-2012. In: M. Lemke & G. Wiedemann (eds.) Text Mining in den Sozialwissenschaften. Grundlagen – Analysen – Perspektiven. Wiesbaden: VS Verlag.
  • Overbeck, M. (2014) ‘European debates during the Libya crisis of 2011: shared identity, divergent action’, European Security, 23:4, 583-600. http://dx.doi.org/10.1080/09662839.2014.948866
  • Overbeck, M. (2014): 'Religion resurrected? The Presence of Religion in European Public Debates on Wars and Military Interventions. ' Paper presented at the 21st Conference of Europeanists, Washington (16.3.2014)
  • Overbeck, M. (2014): 'Making a security identity from below? Transnational discourses in European media during the Libya crisis. ' Paper presented at the Annual Conference of the International Studies Association (ISA), Toronto (27.3.2014)
  • Overbeck, M., Kantner, C., Sangar, E. (2014) ‘The practical challenges of exploring “soft” concepts through “hard” methods: The corpus-linguistic analysis of multiple collective identities in contemporary transnational media debates’. Paper presented at the MZES conference on ‘Content Analysis in the Social Sciences’, Mannheim (11.10.2014)
  • Ruppenhofer, J., Klinger, R., Struß, J.M., Sonntag, J., Wiegand, M. (2014). IGGSA shared tasks on german sentiment analysis. (gestalt). In Faaß, G., Ruppenhofer, J., editors, Workshop Proceedings of the 12th Edition of the KONVENS Conference, Hildesheim, Germany, October. Universität Hildesheim. URL: http://nbn-resolving.de/urn:nbn:de:gbv:hil2-opus-3196
  • Ruppenhofer, J., Struß, J.M., Sonntag, J., Gindl, S. (2013). IGGSA Shared Task on Source and Target Extraction from Political Speeches. 2014. Practice and theory of opinion mining and sentiment analysis, JLCL 29:1, 33-46. URL: http://www.jlcl.org/2014_Heft1/Heft1-2014.pdf
  • Sangar, E. (2014) 'Illuminating the shadow of the past: The transnationalisation of collective memory and ist impact on debating foreign policy crises.' Paper presented at the 55th ISA Annual Convention in Toronto, March 26th-29th, 2014.
  • Sangar, E. (2014) 'Die Bundeswehr in Afghanistan: Grenzen einer erfundenen Tradition.' In M. Daxner (Ed.), Deutschland in Afghanistan. Oldenburg: BIS-Verlag: 115-138
  • Sangar, E., Douglas, N. (2014) 'Les relations armées-société en Allemagne', in: La Lettre de l’IRSEM, 2014 (1): 6-9.
  • Sangar, Eric (2014) 'Historical Experience: Burden or Bonus in Today’s Wars? The British Army and the Bundeswehr in Afghanistan. ' Freiburg: Rombach.
  • Sangar, Eric (2014) 'The Weight of the Past(s): The Impact of the Bundeswehr's Use of Historical Experience on Strategy-Making in Afghanistan. ', in Journal of Strategic Studies, online first publication, http://dx.doi.org/10.1080/01402390.2013.798584.
  • W. Sidorenko, J. Sonntag, M. Stede, N. Krüger, S. Stieglitz (2013). From newspaper to microblogging: What does it take to find opinions? Proc. of 4th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media (WASSA), NAACL-HLT, Atlanta, 2013. URL: http://www.aclweb.org/anthology/W/W13/W13-1611.pdf
  • Sonntag, J., Stede, M. (2014). GraPAT: a Tool for Graph Annotations. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC), Reykjavik, 2014. URL: http://www.lrec-conf.org/proceedings/lrec2014/pdf/824_Paper.pdf
  • Sonntag, J., & Stede, M. (2014). Sentiment Analysis: What’s Your Opinion? Text Mining (pp. 177-199). Springer International Publishing. URL: http://link.springer.com/chapter/10.1007%2F978-3-319-12655-5_9#
  • Tietz, U. and Kantner, C. (2014, in print) 'Staatskritik und Antiinstitutionalismus bei Nietzsche und Marx', in S. Dietzsch (ed.), Nietzsches Perspektiven, Berlin: De Gruyter, pp. xx.
  • Torabi Asr, Fatemeh and Sonntag, Jonathan and Grishina, Yulia and Stede, Manfred (2014). Conceptual and Practical Steps in Event Coreference Analysis of Large-scale Data. Proceedings of the Second Workshop on EVENTS: Definition, Detection, Coreference, and Representation. Association for Computational Linguistics (ACL), Baltimore, Maryland, USA. pp. 35-44. URL: http://www.aclweb.org/anthology/W/W14/W14-2906.pdf
  • Wüest, B., Clematide, S., Bünzli, A. and Laupper, D. (2011) 'Semi-Automatic Core Sentence Analysis: Improving Content Analysis for Electoral Campaign Research', International Relations Working Paper, Stuttgart University, Stuttgart.