Hauptseite

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche

Literatur rechnen. Ein Wiki zur digitalen Textanalyse

Dieses Wiki ist ursprünglich im Wintersemester 2011/2012 an der Universität Göttingen von den Studierenden des Masterseminars "Literatur rechnen. Neue Wege der Textanalyse" unter Leitung der Dozentin Berenike Herrmann erarbeitet worden: Katrin Droste, Sarah Eilers, Ramona Heileck, Martin Hinze, Sarah Koch, Margarete Leissa, Stephanie Jennie Leitz und Stefanie Rößler (studentische Hilfskraft mit EDV-Know-How war Malte Gerloff).


Das Wiki beschreibt momentan acht Tools zur digitalen Textanalyse:

Die Artikel wurden von den Teilnehmern und Teilnehmerinnen des Kurses selbstständig erstellt und im zweiten Schitt durch "peer review" von den Komilitoninnen und Komilitonen kritisch gegengelesen. Dieses Verfahren hat nicht nur dazu beigetragen, dass die Artikel wirklich eine einheitliche Struktur aufweisen, sondern insgesamt qualitativ ziemlich hochwertig sind. Die einzelnen Artikel sollen zukünftig regelmäßig überarbeitet werden, um Weiterentwicklungen der Tools abzubilden. Bitte schreiben Sie uns mit Kommentaren, Kritik oder Fragen: bherrma1@gwdg.de

Die Autorinnen und Autoren der Originalartikel sind hier zu finden: Mitarbeiterinnen und Mitarbeiter

Die Tools, die letztlich im Wiki beschrieben werden, wurden nach den folgenden Kriterien ausgesucht: i.d.R. kostenfrei, leicht zugänglich, für AnfängerInnen gut handhabbar. Eine Vielzahl von leistungsstarken Tools wird aus praktischen Gründen nicht im Wiki abgebildet. Hier ist eine Übersicht in Arbeit: Weitere Tools

Struktur der Artikel: in Bearbeitung

Eine Annäherung an das "Rechnen von Literatur"

Fig.1 - E.T.A. Hoffmann: Der Sandmann ohne Stoppwörter
Fig.2 - E.T.A. Hoffmann: Der Sandmann Auszug aus einer Konkordanz von "wohl"

Die Analyse von Worthäufigkeiten in Einzeltexten kann eine Inhalts- und Stilanalyse sein. Einen ersten Eindruck von den Möglichkeiten des "Rechnens von Literatur" in diesem Sinne gibt die Visualisierung von Worthäufigkeiten in Form von "word clouds" (siehe Fig.1). Die am häufigsten auftretenden Wörter werden hier am größten dargestellt, die weniger häufigen Wörter graduell kleiner. Nachdem in Fig. 1 zunächst Wörter entfernt wurden, die im Deutschen allgemein sehr häufig sind (sogenannte Stoppwörter wie Konjunktionen, Artikel und Formen von "sein"), fällt auf, dass die Eigennamen der Figuren (Nathanael, Klara, Coppelius/Coppola, Olimpia) sowie die Bezeichnungen "Sandmann" und "Mutter" besonders häufig sind. Zu den meisthäufigen Wörtern gehören auch "Augen", "wohl", "immer" und "ganz". Dieser erste, in wenigen Sekunden generierte Überblick kann als Heuristik für die weitere Analyse des Textes dienen. Zum einen reflektieren die meisthäufigen Wörter den Inhalt der Erzählung im Hinblick auf die Figuren, scheinen aber in Verbindung zum zentralen Motiv der "Augen" zu stehen. "Augen" spielt also nicht nur qualitativ, sondern auch quantitativ eine besondere Rolle im Text. Ausgehend von den Worthäufigkeiten könnte die weitere Analyse dann auch weniger eindeutige Elemente in den Blick nehmen, zum Beispiel "wohl", das adverbiell, partikelhaft, konjunktional oder adjektivisch gebraucht werden kann, wobei die Bedeutungen stark divergieren können (vgl. DWDS). "Wohl" kann z.B. ausdrücken "dass ein Zweifel entkräftet werden soll; durchaus, ohne weiteres" (DWDS) - aber auch, dass eine Ungewissheit eingeräumt wird: "wahrscheinlich, anscheinend, vermutlich" (DWDS). In Bezug auf Der Sandmann, eine Erzählung, die mit der Verschränkung von Realem und Irrealem in der erzählten Welt spielt, ist es also spannend zu klären, welche Funktion das Wort "wohl" als eines der häufigsten im Text hat. Dies wird oft mit Hilfe von Konkordanzen (oder "Keyword in Context"- KWIC - Ansichten) getan, wie in Fig.2, die einige Fälle des Auftretens von "wohl" im Sandmann abbildet.

Mindestens zwei Dinge sind unerlässlich für die rechnergestützte Arbeit mit literarischen Texten – zum einen der Zugriff auf die literarischen Texte in digitaler „Volltext“-Form (die in gesammelter Form normalerweise „Korpus“ genannt werden), zum anderen ein informatisches Programm, das Analyseschritte ermöglicht. Ein Korpus ist in diesem Sinne entweder eine Datenbank, die Texte mit ähnlichen Charakteristika enthält (ein spezialisiertes Korpus) oder eine Datenbank, die z.B. ein bestimmtes Genre, eine Epoche oder eine Literatur (oder Sprache) insgesamt abbilden will und in diesem Sinne Repräsentativität anstrebt. Die Aufgaben von Programmen der Textanalyse fallen in ein sehr weites Spektrum – angefangen bei der simplen Erhebung von Wortfrequenzen, wie sie oben angedeutet wird, über die Errechnung von Satz- und Wortlängen, die Verteilung von Lemmata, Wortarten und lexikalischer Dichte bis hin zur statistischen Errechnung von "Keywords", die überproportional häufig in bestimmten Texten/Stichproben im Vergleich mit großen Korpora vorkommen (vgl. ). Ein besonders avanciertes Forschungsfeld der digitalen Textanalyse sind automatisierte Verfahren. Hier kann zum Beispiel Stilähnlichkeit unterschiedlicher Texte nach Autoren oder Epochen gemessen werden (vgl. Burrows, 2002) oder Zitationsspuren automatisch aufgefunden werden (eTraces-Projekt [1]). Da aber bei weitem nicht alle Phänomene, die Textwissenschaftler interessieren, auf der Sprachoberfläche liegen, und so nicht ohne Weiteres von den Programmen erkannt werden können, muss den Programmen händisch Starthilfe gegeben werden. So werden Phänomene textueller (bzw. lexikalischer, inhaltlicher, pragmatischer oder sonstiger) Art von Hand im Korpus (oder auch Einzeltexten) ausgezeichnet(vgl. Steen, Dorst, Herrmann, et al., 2010, die ein Korpus von 200,000 Wörtern auf metaphorischen Sprachgebrauch annotiert haben). Die Annotation von solchen Phänomenen "jenseits der Textoberfläche" ermöglicht eine darauffolgende statistische Analyse, sowie Visualisierungen unterschiedlicher Art. So werden Muster sichtbar (vgl. Moretti, 2000).

Literatur

Bird, S., Loper, E., und Klein, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly.

Blei, D. (2012). Probabilistic Topic Models, in: Communications of the ACM, Vol. 55, No. 4, S.77–8.

Bondi, M. & Scott. M.(2010). Keyness in Texts. [Studies in Corpus Linguistics, 41]. Amsterdam: John Benjamins.

Burrows, J. (2002). Delta: A Measure for Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing Vol. 17, No. 3.

Crane, G. (2006). What do you do With a Million Books, D-Lib-magazine Vol. 12, 3.

Carstensen, K.-U. , Ebert, C., Ebert, C. , Jekat, S., Klabunde, R., und Langer, H. (Hg.) (2010), Computerlinguistik und Sprachtechnologie: Eine Einführung, Heidelberg: Spektrum Akademischer Verlag.

Clark, C., Fox, C., und Lappin, S. (Hg.) (2010). The Handbook of Computational Linguistics and Natural Language Processing, Oxford: Wiley-Blackwell.

Gries, S. (2009). Quantitative Corpus Linguistics with R: A Practical Introduction. London & New York: Routledge.

Hoover, D. (2007). The End of the Irrelevant Text: Electronic Texts, Linguistics, and Literary Theory, DHQ, Vol. 1 No. 2.

Howe, J., Connoly, R., und Windram, H.F. (2012). Responding to Criticisms of Phylogenetic Methods in Stemmatology, SEL Studies in English Literature 1500-1900, Vol. 52, No. 1, S. 51-67.

Jannidis, F. (2010). Methoden der computergestützten Textanalyse. In: V. u. A. Nünning (Hg.), Methoden der literatur- und kulturwissenschaftlichen Textanalyse, Stuttgart/Weimar: Metzler, S. 109-132.

Juola, P. (2008). Authorship Attribution. Foundations and Trends in Information Retrieval. Vol. 1, No. 3, S. 233–334.

Kenny, A. (1982). The Computation of Style. Oxford & New York: Pergamon Press.

Lüdeling, A. und Kytö, M. (Eds.), Corpus Linguistics. An International Handbook. Berlin: Mouton de Gruyter.

Moretti, F. (2000). Conjectures on World Literature, in: New Left Review Vol. 1, S. 54-68.

Michel, J.-B., et al. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books, Science Vol. 331, S. 176-82.

Rommel, T. (2004). Literary Studies, in: S. Schreibman, R. Siemens u. J. Unsworth (Hg.), Companion to Digital Humanities, Oxford, URL: http://www.digitalhumanities.org/companion/

Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Comput. Surv., Vol. 34, No. 1, S. 1-47.

Steen, G. J., Dorst, A. G., Herrmann, J. B., Kaal, A. A., und Krennmayr, T. (2010). Metaphor in Usage. Cognitive Linguistics, Vol. 21, No. 4, S. 765-796.

Links zur Digitalen Textanalyse

Die eigenen Internetauftritte der Tools sind jeweils in den Artikeln verlinkt, hier findet man Informationen zu Korpora. Eine Auswahl von Links zum Thema digitale Textanalyse ist hier zu finden:

Weitere Tools

Eine Übersicht zu (deutschsprachigen, literarischen) Korpora ist hier zu finden:Korpora

Impressum

Impressum

Mitarbeiterinnen und Mitarbeiter

 Bitte zitieren Sie das Wiki bei Bedarf auf die folgende Art und Weise:
 Herrmann, B. (Hg.),(2012). Literatur rechnen. Ein Wiki zur digitalen Textanalyse.(Digitale Ressource)http://litre.uni-goettingen.de/wiki/index.php/Hauptseite DOI?
 Ein einzelner Artikel zum Beispiel so:
 Droste, K. (2012). AntConc [Version: Datum]. In: B. Herrmann (Hg.), Literatur rechnen. Ein Wiki zur digitalen Textanalyse. (Digitale Ressource)http://litre.uni-goettingen.de/wiki/index.php/AntConc