Hauptseite

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche
Unser LitRe-Wiki ist seit 2012 nicht eingreifend überarbeitet worden. Es bildet also den damaligen Stand ab.

Interesse? Haben Sie Lust, einen Artikel zu überarbeiten oder neu zu verfassen? Schreiben Sie uns! Auch Kommentare, Kritik oder Fragen sind willkommen: berenike.herrmann at unibas.ch

Literatur rechnen, oder digitale Textanalyse, ist eine wissenschaftliche Tätigkeit, die digitalisierte (literarische) Texte mithilfe von rechnerischen Programmen analysiert und beschreibt. Das "Rechnen" von Literatur kann ganz unterschiedliche Formen haben: es kann nah am Text bleiben und den Computer als Hilfsmittel für eine eher traditionelle Analyse von kleinen Textmengen einsetzen (Stichwort close reading, vgl. Ransom, 1937), es kann aber auch eine große Distanz zum Text selbst einnehmen und die Analyse von grossen Datenmengen leisten (Stichwort distant reading, vgl. Lauer, 2009; Moretti, 2000). Eine Verbindung zwischen beiden Methoden ist gegeben, wenn Analysen auf mittlerer Distanz (vgl. Craig, 2013) durchgeführt werden, zum Beispiel durch Einspeisen von Ergebnissen aus händischen digitalen Analysen in Suchanfragen, die über grosse Textkorpora laufen (z.B. der "small corpus-large corpus"-Ansatz von Cameron & Deignan, 2003).

Die in diesem Wiki erwähnten Methoden decken die gesamte Bandbreite zwischen digitalem close reading, middle distant reading und distant reading ab.


Literatur rechnen. Ein Wiki zur digitalen Textanalyse

Dieses Wiki ist ursprünglich im Wintersemester 2011/2012 an der Universität Göttingen von den Studierenden des Masterseminars "Literatur rechnen. Neue Wege der Textanalyse" erarbeitet worden (zur Vorgehensweise, dem Aufbau der Artikel und den Mitwirkenden siehe Mitarbeiterinnen und Mitarbeiter und Acknowledgements).

Das Wiki beschreibt momentan acht Tools zur digitalen Analyse von literarischen Texten:

Diese Tools wurden aus der großen Menge von digitalen Werkzeugen der Textanalyse ausgesucht. Dabei galten, neben persönlichem Interesse der Studierenden, die folgenden Kriterien:

  • i.d.R. kostenfrei
  • leicht zugänglich
  • für AnfängerInnen ohne informatische Vorkenntnisse gut handhabbar
  • i.d.R. einschlägig.


Eine Annäherung an das "Rechnen von Literatur"

Fig.1 - E.T.A. Hoffmann: Der Sandmann ohne Stoppwörter
Fig.2 - E.T.A. Hoffmann: Der Sandmann Auszug aus einer Konkordanz von "wohl"
Fig.3 - E.T.A. Hoffmann: Der Sandmann Distributionsgraph von "wohl"

Mindestens zwei Dinge sind unerlässlich für die rechnergestützte Arbeit mit literarischen Texten – zum einen der Zugriff auf die literarischen Texte in digitaler „Volltext“-Form (die in gesammelter Form normalerweise „Korpus“ genannt werden), zum anderen ein informatisches Programm, das die digitale Analyse vorbereitet und/oder Berechnungen ermöglicht (vgl. auch den Beitrag von Rockwell im Wiki der Text Analysis Developers Alliance (TADA) [1]. Korpora sind in diesem Sinne entweder Datenbanken, die Texte mit ähnlichen Charakteristika enthalten (spezialisierte Korpora) oder Datenbanken, die z.B. bestimmte Genres, Epochen oder "Literaturen" (oder Sprachen) insgesamt abbilden möchten und in diesem Sinne Repräsentativität anstreben (repräsentative Korpora). Die Aufgaben von Programmen der Textanalyse (die oft in Formm von sogenannten "Tools" bereitgestellt werden) fallen in ein sehr weites Spektrum – angefangen bei der simplen Erhebung von Wortfrequenzen und Konkordanzen, wie sie unten angerissen wird (siehe auch Fig. 1 und 2), über die Errechnung von Satz- und Wortlängen, die Verteilung von Lemmata, Wortarten und lexikalischer Dichte bis hin zur statistischen Errechnung von "Keywords", die überproportional häufig in bestimmten Texten/Stichproben im Vergleich mit großen Korpora vorkommen (vgl. Bondi & Scott, 2010). Neben spezialisierten "Tools" zu Textanalyse kann natürlich auch mit "echten" informatischen Progammiersprachen gearbeitet werden. Manche, wie zum Beispiel Python oder R, stellen Textanalyse-Pakete und Skripte zur Textanalyse bereit (vgl. Bird, Loper und Klein, 2009; Gries, 2009). Ein besonders avanciertes Forschungsfeld der digitalen Textanalyse sind automatisierte Verfahren (vgl. Carstensen, Ebert, Ebert, et al., 2010; Clark, Fox, und Lappin, 2010). Hier kann zum Beispiel Stilähnlichkeit unterschiedlicher Texte nach Autoren oder Epochen gemessen werden (vgl. Burrows, 2002; Stylometry with R [2]) oder Zitationsspuren automatisch aufgefunden werden (eTraces-Projekt [3]). Da aber bei weitem nicht alle Phänomene, die Textwissenschaftler interessieren, auf der Sprachoberfläche liegen, und so nicht ohne Weiteres von den Programmen erkannt werden können (vgl. Rommel, 2004), muss den Programmen oft händisch Starthilfe in Form eines "Markup" gegeben werden (vgl. Jannidis, 2010). So werden Phänomene textueller (bzw. semantischer, inhaltlicher, pragmatischer oder sonstiger) Art von Hand im Korpus (oder auch Einzeltexten) ausgezeichnet (vgl. Steen, Dorst, Herrmann, et al., 2010, die ein Korpus von 190.000 Wörtern auf metaphorischen Sprachgebrauch annotiert haben). Eine weitere Form des Anreicherns von Text sind Metadaten, die in größere Textmengen /Korpora systematisch eingepflegt werden. Typische Metadaten sind Autor/in, Gattung, Entstehungsdatum und Geschlecht von Autors/in (vgl. Jannidis, 2010). Die Anreicherung von Texten um solche Daten "jenseits der Textoberfläche" ermöglicht eine darauffolgende statistische Analyse, sowie Visualisierungen unterschiedlicher Art. So werden Muster sichtbar (vgl. Moretti, 2000).

Die Analyse von Worthäufigkeiten in Einzeltexten kann aber auch eine "einfache" Inhalts- und Stilanalyse sein. Einen ersten Eindruck von den Möglichkeiten des "Rechnens von Literatur" in diesem Sinne gibt die Visualisierung von Worthäufigkeiten in Form von "word clouds", hier am Beispiel von E.T.A. Hoffmanns Der Sandmann (siehe Fig. 1, erstellt mit wordle [4]). Die am häufigsten auftretenden Wörter werden hier am größten dargestellt, die weniger frequenten Wörter graduell kleiner. Nachdem in Fig. 1 zunächst Wörter entfernt wurden, die im Deutschen allgemein sehr häufig sind (sogenannte Stoppwörter zu denen z.B. Artikel (der, die, das), Konjunktionen (und), und Formen von "sein" zählen), fällt auf, dass die Eigennamen der Figuren (Nathanael, Klara, Coppelius/Coppola, Olimpia) sowie die Bezeichnungen "Sandmann" und "Mutter" besonders häufig sind. Zu den am häufigsten vorkommenden Wörtern gehören auch "Augen", "wohl", "immer" und "ganz". Dieser erste, in wenigen Sekunden generierte Überblick kann als Heuristik für die weitere Analyse des Textes dienen. Zum einen reflektieren die meisthäufigen Wörter den Inhalt der Erzählung im Hinblick auf die Figuren, scheinen aber in Verbindung zu den Motiven zu stehen. "Augen", als zentrales Motiv spielt also nicht nur qualitativ, sondern auch quantitativ eine besondere Rolle im Text. Ausgehend von den Worthäufigkeiten könnte die weitere Analyse dann auch weniger eindeutige Elemente in den Blick nehmen, zum Beispiel "wohl", das adverbiell, partikelhaft, konjunktional oder adjektivisch gebraucht werden kann, wobei die Bedeutungen stark divergieren können (vgl. DWDS [5]). "Wohl" kann z.B. ausdrücken "dass ein Zweifel entkräftet werden soll; durchaus, ohne weiteres" (DWDS) - aber auch, dass eine Ungewissheit eingeräumt wird: "wahrscheinlich, anscheinend, vermutlich" (DWDS). In Bezug auf Der Sandmann, einer Erzählung, die mit der Verschränkung von Realem und Irrealem in der erzählten Welt spielt, ist es also spannend zu klären, welche Funktion das Wort "wohl" als eines der am häufigsten auftretenden im Text hat. Dies wird in der digitalen Textanalyse oft mit Hilfe von Konkordanzen (oder "Keyword in Context"- KWIC - Ansichten, vgl. Müller, 2013) getan. Fig. 2 bildet die einige Fälle des Auftretens von "wohl" in Der Sandmann ab. Eine weitere Analyse würde nun mit Hilfe der Konkordanz nach Mustern im Gebrauch von "wohl" in Verbindung mit der direkten textuellen Umgebung suchen. Für die Analyse kann auch eine Visualisierung der Verteilung des Wortes über den Text hilfreich sein, wie z.B. in Form eines Distributionsgraphes in Fig. 3 (erstellt mit Voyant). Hier kann mit einem Blick erfasst werden, wo das gesuchte Wort im Text ungefähr auftaucht, und wie häufig es ist. Wortcloud, Konkordanz und Distributionsgraph sind sehr einfache frequenzbasierte Mittel der digitalen Suche nach Wörtern und Wortverbindungen um Muster innerhalb eines Textes oder Korpus zu erkennen.

Erwähnte Literatur und Literatur zur Einführung

  • Bird, S., Loper, E., und Klein, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly.
  • Bondi, M. & Scott. M.(2010). Keyness in Texts. [Studies in Corpus Linguistics, 41]. Amsterdam: John Benjamins.
  • Bubenhofer, N. (2006-2011). Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: [6].
  • Burrows, J. (2002). Delta: A Measure for Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing Vol. 17, No. 3.
  • Cameron, L. & Deignan, A. (2003). Combining Large and Small Corpora to Investigate Tuning Devices Around Metaphor in Spoken Discourse. Metaphor and Symbol, Vol. 18, No. 3, S. 149–160 [7]
  • Craig, Hugh (2013). Middle-distance Reading with Information-theory Metrics. (Vortrag) http://www.gcdh.de/en/research/prof.-hugh-craig-middle-distance-reading-with-information-theory-metrics
  • Crane, G. (2006). What do you do With a Million Books, D-Lib-magazine Vol. 12, No. 3.
  • Carstensen, K.-U. , Ebert, C., Ebert, C. , Jekat, S., Klabunde, R., und Langer, H. (Hg.) (2010), Computerlinguistik und Sprachtechnologie: Eine Einführung, Heidelberg: Spektrum Akademischer Verlag.
  • Clark, C., Fox, C., und Lappin, S. (Hg.) (2010). The Handbook of Computational Linguistics and Natural Language Processing. Oxford: Wiley-Blackwell.
  • Gries, S. (2009). Quantitative Corpus Linguistics with R: A Practical Introduction. London & New York: Routledge.
  • Hoover, D. (2007). The End of the Irrelevant Text: Electronic Texts, Linguistics, and Literary Theory, DHQ, Vol. 1 No. 2.
  • Howe, J., Connoly, R., und Windram, H.F. (2012). Responding to Criticisms of Phylogenetic Methods in Stemmatology, SEL Studies in English Literature 1500-1900, Vol. 52, No. 1, S. 51-67.
  • Jannidis, F. (2010). Methoden der computergestützten Textanalyse. In: V. u. A. Nünning (Hg.), Methoden der literatur- und kulturwissenschaftlichen Textanalyse, Stuttgart/Weimar: Metzler, S. 109-132.
  • Juola, P. (2008). Authorship Attribution. Foundations and Trends in Information Retrieval. Vol. 1, No. 3, S. 233–334.
  • Kenny, A. (1982). The Computation of Style. Oxford & New York: Pergamon Press.
  • Lüdeling, A. und Kytö, M. (2008) (Eds.), Corpus Linguistics. An International Handbook. Berlin: Mouton de Gruyter.
  • Michel, J.-B., et al. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books, Science Vol. 331, S. 176-82.
  • Moretti, F. (2000). Conjectures on World Literature, in: New Left Review Vol. 1, S. 54-68.
  • Müller, R. (2013). Parallelstellenmethode – digital. Philologische Erfahrung, Empirisierung, Texte und Korpora, in: Philip Ajouri, Katja Mellmann, Christoph Rauen (Hg.), Empirie in der Literaturwissenschaft. Mentis: Paderborn. S. 181–200.
  • Ransom, J. C. (1937). Criticism, Inc., The Virginia Quarterly Review, Autumn 1937. [8]
  • Rommel, T. (2004). Literary Studies, in: S. Schreibman, R. Siemens u. J. Unsworth (Hg.), Companion to Digital Humanities. Oxford. [9]
  • Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Comput. Surv., Vol. 34, No. 1, S. 1-47.
  • Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.
  • Sinclair, J. (2004). Trust the text. Language, corpus and discourse. Routledge.
  • Steen, G. J., Dorst, A. G., Herrmann, J. B., Kaal, A. A., und Krennmayr, T. (2010). Metaphor in Usage. Cognitive Linguistics, Vol. 21, No. 4, S. 765-796.
  • Trilcke, P. (2013). Social Network Analysis (SNA) als Methode einer textempirischen Literaturwissenschaft, in: Philip Ajouri, Katja Mellmann, Christoph Rauen (Hg.), Empirie in der Literaturwissenschaft. Mentis: Paderborn.

Links zur Digitalen Textanalyse

Die eigenen Internetauftritte der im Wiki beschriebenen Tools sind jeweils in den Artikeln verlinkt.

Weitere Tools und Informationen zu (literarischen) Korpora sind hier zu finden:

Eine Auswahl von Links zu Personen, Gruppen, Projekten, Ressourcen (etc.) ist hier zu finden:

Einige Blogs:

Impressum

Impressum

Mitarbeiterinnen und Mitarbeiter

Acknowledgements

 Bitte zitieren Sie das Wiki bei Bedarf auf die folgende Art und Weise:

Herrmann, J. B. (Hg.),(2012). Literatur rechnen. Ein Wiki zur digitalen Textanalyse.(Digitale Ressource). http://litre.uni-goettingen.de/index.php/Hauptseite

 ... und einen einzelnen Artikel zum Beispiel so:

Droste, K. (2012). AntConc [Version: Datum]. In: J. B. Herrmann (Hg.), Literatur rechnen. Ein Wiki zur digitalen Textanalyse. (Digitale Ressource).

 http://litre.uni-goettingen.de/wiki/index.php/AntConc