Hauptseite

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche

Literatur rechnen. Ein Wiki zur digitalen Textanalyse

Dieses Wiki ist ursprünglich im Wintersemester 2011/2012 an der Universität Göttingen von den Studierenden des Masterseminars "Literatur rechnen. Neue Wege der Textanalyse" unter Leitung der Dozentin Berenike Herrmann erarbeitet worden: Katrin Droste, Sarah Eilers, Ramona Heileck, Martin Hinze, Sarah Koch, Margarete Leissa, Stephanie Jennie Leitz und Stefanie Rößler (studentische Hilfskraft mit EDV-Know-How war Malte Gerloff).


Das Wiki beschreibt momentan acht Tools zur digitalen Textanalyse:

Die Artikel wurden von den Teilnehmern und Teilnehmerinnen des Kurses selbstständig erstellt und im zweiten Schitt durch "peer review" von den Komilitoninnen und Komilitonen kritisch gegengelesen und kommentiert. Dieses Verfahren hat nicht nur dazu beigetragen, dass die Artikel wirklich eine einheitliche Struktur aufweisen, sondern insgesamt qualitativ ziemlich hochwertig sind. Die einzelnen Artikel sollen zukünftig regelmäßig überarbeitet werden, um Weiterentwicklungen der Tools abzubilden. Bitte schreiben Sie uns mit Kommentaren, Kritik oder Fragen: bherrma1@gwdg.de

Die Tools, die letztlich im Wiki beschrieben werden, wurden nach den folgenden Kriterien ausgesucht: i.d.R. kostenfrei, leicht zugänglich, für AnfängerInnen gut handhabbar. Eine Vielzahl von leistungsstarken Tools wird aus praktischen Gründen nicht im Wiki abgebildet. Hier ist eine Übersicht in Arbeit: Weitere Tools

Eine Annäherung an das "Rechnen von Literatur"

Fig.1 - E.T.A. Hoffmann: Der Sandmann ohne Stoppwörter
Fig.2 - E.T.A. Hoffmann: Der Sandmann Auszug aus einer Konkordanz von "wohl"

Mindestens zwei Dinge sind unerlässlich für die rechnergestützte Arbeit mit literarischen Texten – zum einen der Zugriff auf die literarischen Texte in digitaler „Volltext“-Form (die in gesammelter Form normalerweise „Korpus“ genannt werden), zum anderen ein informatisches Programm, das digitale Analyse vorbereitet und Berechnungen ermöglicht. Korpora sind in diesem Sinne entweder Datenbanken, die Texte mit ähnlichen Charakteristika enthalten (spezialisierte Korpora) oder Datenbanken, die z.B. bestimmte Genres, Epochen oder "Literaturen" (oder Sprachen) insgesamt abbilden möchten und in diesem Sinne Repräsentativität anstreben. Die Aufgaben von Programmen der Textanalyse fallen in ein sehr weites Spektrum – angefangen bei der simplen Erhebung von Wortfrequenzen, wie sie unten angerissen wird (siehe auch Fig. 1 und 2), über die Errechnung von Satz- und Wortlängen, die Verteilung von Lemmata, Wortarten und lexikalischer Dichte bis hin zur statistischen Errechnung von "Keywords", die überproportional häufig in bestimmten Texten/Stichproben im Vergleich mit großen Korpora vorkommen (vgl. Bondi & Scott, 2010). Ein besonders avanciertes Forschungsfeld der digitalen Textanalyse sind automatisierte Verfahren. Hier kann zum Beispiel Stilähnlichkeit unterschiedlicher Texte nach Autoren oder Epochen gemessen werden (vgl. Burrows, 2002; Stylometry with R [1]) oder Zitationsspuren automatisch aufgefunden werden (eTraces-Projekt [2]). Da aber bei weitem nicht alle Phänomene, die Textwissenschaftler interessieren, auf der Sprachoberfläche liegen, und so nicht ohne Weiteres von den Programmen erkannt werden können (vgl. Rommel, 2004), muss den Programmen oft händisch Starthilfe in Form eines "Markup" gegeben werden (vgl. Jannidis, 2010). So werden Phänomene textueller (bzw. semantischer, inhaltlicher, pragmatischer oder sonstiger) Art von Hand im Korpus (oder auch Einzeltexten) ausgezeichnet (vgl. Steen, Dorst, Herrmann, et al., 2010, die ein Korpus von 190.000 Wörtern auf metaphorischen Sprachgebrauch annotiert haben). Eine weitere Form des Anreicherns von Text sind Metadaten, die in größere Textmengen /Korpora systematisch eingepflegt werden. Typische Metadaten sind Autor/in, Gattung, Entstehungsdatum und Geschlecht von Autors/in (vgl. Jannidis, 2010). Die Anreicherung von Texten um solche Daten "jenseits der Textoberfläche" ermöglicht eine darauffolgende statistische Analyse, sowie Visualisierungen unterschiedlicher Art. So werden Muster sichtbar (vgl. Moretti, 2000).

Die Analyse von Worthäufigkeiten in Einzeltexten kann aber auch eine "einfache" Inhalts- und Stilanalyse sein. Einen ersten Eindruck von den Möglichkeiten des "Rechnens von Literatur" in diesem Sinne gibt die Visualisierung von Worthäufigkeiten in Form von "word clouds", hier am Beispiel von E.T.A. Hoffmanns Der Sandmann (siehe Fig.1). Die am häufigsten auftretenden Wörter werden hier am größten dargestellt, die weniger häufigen Wörter graduell kleiner. Nachdem in Fig. 1 zunächst Wörter entfernt wurden, die im Deutschen allgemein sehr häufig sind (sogenannte Stoppwörter wie Konjunktionen, Artikel und Formen von "sein"), fällt auf, dass die Eigennamen der Figuren (Nathanael, Klara, Coppelius/Coppola, Olimpia) sowie die Bezeichnungen "Sandmann" und "Mutter" besonders häufig sind. Zu den am häufigsten vorkommenden Wörtern gehören auch "Augen", "wohl", "immer" und "ganz". Dieser erste, in wenigen Sekunden generierte Überblick kann als Heuristik für die weitere Analyse des Textes dienen. Zum einen reflektieren die meisthäufigen Wörter den Inhalt der Erzählung im Hinblick auf die Figuren, scheinen aber in Verbindung zum zentralen Motiv der "Augen" zu stehen. "Augen" spielt also nicht nur qualitativ, sondern auch quantitativ eine besondere Rolle im Text. Ausgehend von den Worthäufigkeiten könnte die weitere Analyse dann auch weniger eindeutige Elemente in den Blick nehmen, zum Beispiel "wohl", das adverbiell, partikelhaft, konjunktional oder adjektivisch gebraucht werden kann, wobei die Bedeutungen stark divergieren können (vgl. DWDS [3]). "Wohl" kann z.B. ausdrücken "dass ein Zweifel entkräftet werden soll; durchaus, ohne weiteres" (DWDS) - aber auch, dass eine Ungewissheit eingeräumt wird: "wahrscheinlich, anscheinend, vermutlich" (DWDS). In Bezug auf Der Sandmann, eine Erzählung, die mit der Verschränkung von Realem und Irrealem in der erzählten Welt spielt, ist es also spannend zu klären, welche Funktion das Wort "wohl" als eines der häufigsten im Text hat. Dies wird oft mit Hilfe von Konkordanzen (oder "Keyword in Context"- KWIC - Ansichten) getan, wie in Fig.2, die einige Fälle des Auftretens von "wohl" im Sandmann abbildet.

Literatur zur Einführung

  • Bird, S., Loper, E., und Klein, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly.
  • Bondi, M. & Scott. M.(2010). Keyness in Texts. [Studies in Corpus Linguistics, 41]. Amsterdam: John Benjamins.
  • Bubenhofer, N.(2006-2011). Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: [4].
  • Burrows, J. (2002). Delta: A Measure for Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing Vol. 17, No. 3.
  • Crane, G. (2006). What do you do With a Million Books, D-Lib-magazine Vol. 12, 3.
  • Carstensen, K.-U. , Ebert, C., Ebert, C. , Jekat, S., Klabunde, R., und Langer, H. (Hg.) (2010), Computerlinguistik und Sprachtechnologie: Eine Einführung, Heidelberg: Spektrum Akademischer Verlag.
  • Clark, C., Fox, C., und Lappin, S. (Hg.) (2010). The Handbook of Computational Linguistics and Natural Language Processing, Oxford: Wiley-Blackwell.
  • Gries, S. (2009). Quantitative Corpus Linguistics with R: A Practical Introduction. London & New York: Routledge.
  • Hoover, D. (2007). The End of the Irrelevant Text: Electronic Texts, Linguistics, and Literary Theory, DHQ, Vol. 1 No. 2.
  • Howe, J., Connoly, R., und Windram, H.F. (2012). Responding to Criticisms of Phylogenetic Methods in Stemmatology, SEL Studies in English Literature 1500-1900, Vol. 52, No. 1, S. 51-67.
  • Jannidis, F. (2010). Methoden der computergestützten Textanalyse. In: V. u. A. Nünning (Hg.), Methoden der literatur- und kulturwissenschaftlichen Textanalyse, Stuttgart/Weimar: Metzler, S. 109-132.
  • Juola, P. (2008). Authorship Attribution. Foundations and Trends in Information Retrieval. Vol. 1, No. 3, S. 233–334.
  • Kenny, A. (1982). The Computation of Style. Oxford & New York: Pergamon Press.
  • Lüdeling, A. und Kytö, M. (Eds.), Corpus Linguistics. An International Handbook. Berlin: Mouton de Gruyter.
  • Moretti, F. (2000). Conjectures on World Literature, in: New Left Review Vol. 1, S. 54-68.
  • Michel, J.-B., et al. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books, Science Vol. 331, S. 176-82.
  • Rommel, T. (2004). Literary Studies, in: S. Schreibman, R. Siemens u. J. Unsworth (Hg.), Companion to Digital Humanities, Oxford, URL: http://www.digitalhumanities.org/companion/
  • Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Comput. Surv., Vol. 34, No. 1, S. 1-47.
  • Steen, G. J., Dorst, A. G., Herrmann, J. B., Kaal, A. A., und Krennmayr, T. (2010). Metaphor in Usage. Cognitive Linguistics, Vol. 21, No. 4, S. 765-796.

Links zur Digitalen Textanalyse

Die eigenen Internetauftritte der Tools sind jeweils in den Artikeln verlinkt, hier findet man Informationen zu Korpora. Eine Auswahl von Links zum Thema digitale Textanalyse ist hier zu finden:

Impressum

Impressum

Mitarbeiterinnen und Mitarbeiter

 Bitte zitieren Sie das Wiki bei Bedarf auf die folgende Art und Weise:
 Herrmann, B. (Hg.),(2012). Literatur rechnen. Ein Wiki zur digitalen Textanalyse.(Digitale Ressource)http://litre.uni-goettingen.de/wiki/index.php/Hauptseite DOI?
 Ein einzelner Artikel zum Beispiel so:
 Droste, K. (2012). AntConc [Version: Datum]. In: B. Herrmann (Hg.), Literatur rechnen. Ein Wiki zur digitalen Textanalyse. (Digitale Ressource)http://litre.uni-goettingen.de/wiki/index.php/AntConc