Hauptseite: Unterschied zwischen den Versionen

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche
(181 dazwischenliegende Versionen des gleichen Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
== '''Literatur rechnen. Ein Wiki zur digitalen Textanalyse ==
+
{| border="1"
Dieses Wiki ist ursprünglich im Wintersemester 2011/2012 an der Universität Göttingen von den Studierenden des Masterseminars "Literatur rechnen. Neue Wege der Textanalyse"  unter Leitung der Dozentin Berenike Herrmann erarbeitet worden: Katrin Droste, Sarah Eilers, Ramona Heileck, Martin Hinze, Sarah Koch, Margarete Leissa, Stephanie Jennie Leitz und Stefanie Rößler (studentische Hilfskraft mit EDV-Know-How war Malte Gerloff).
+
|Unser LitRe-Wiki ist seit 2012 nicht eingreifend überarbeitet worden. Es bildet also den damaligen Stand ab. Um Weiterentwicklungen der digitalen Textanalyse abzubilden, sollen nun die Artikel peu à peu überarbeitet werden, und weitere Artikel hinzukommen.  
  
 +
'''Interesse?'''
 +
Haben Sie Lust, einen Artikel zu überarbeiten oder neu zu verfassen? Schreiben Sie uns! Auch Kommentare, Kritik oder Fragen sind willkommen: berenike.herrmann at unibas.ch
 +
|}
  
[[Datei:Wordle_Sandmann.jpg|200px|thumb|left|Fig.1 - E.T.A. Hoffmann: ''Der Sandmann'' ohne Stopwörter]]
+
''Literatur rechnen'', oder ''digitale Textanalyse'', ist eine wissenschaftliche Tätigkeit, die digitalisierte (literarische) Texte mithilfe von rechnerischen Programmen analysiert und beschreibt. Das "Rechnen" von Literatur kann ganz unterschiedliche Formen haben: es kann nah am Text bleiben und den Computer als Hilfsmittel für eine eher traditionelle Analyse von kleinen Textmengen einsetzen (Stichwort ''close reading'', vgl. Ransom, 1937), es kann aber auch eine große Distanz zum Text selbst einnehmen und die Analyse von grossen Datenmengen leisten (Stichwort ''distant reading'', vgl. Lauer, 2009; Moretti, 2000). Eine Verbindung zwischen beiden Methoden ist gegeben, wenn Analysen auf ''mittlerer Distanz'' (vgl. Craig, 2013) durchgeführt werden, zum Beispiel durch Einspeisen von Ergebnissen aus händischen digitalen Analysen in Suchanfragen, die über grosse Textkorpora laufen (z.B. der "small corpus-large corpus"-Ansatz von Cameron & Deignan, 2003).
  
 +
Die in diesem Wiki erwähnten Methoden decken die gesamte Bandbreite zwischen digitalem close reading, middle distant reading und distant reading ab.
  
Einen ersten Eindruck von den Möglichkeiten des "Rechnens von Literatur" gibt die Visualisierung von Worthäufigkeiten in Form von "word clouds" (Siehe Fig.1). Die am häufigsten auftretenden Wörter werden hier am größten dargestellt, die weniger häufigen Wörter werden graduell kleiner dargestellt. Nachdem zunächst Wörter entfernt wurden, die im Deutschen allgemein sehr häufig sind (sogenannte Stopwörter wie Konjunktionen, Artikel und Formen von "sein") fällt auf, dass die Eigennamen der Figuren (Nathanael, Klara, Coppelius/Coppola, Olimpia) sowie die Bezeichnungen "Sandmann" und "Mutter" besonders häufig sind. Zu den meisthäufigen Wörtern gehören auch "Augen", "wohl" und "ganz".
 
  
 +
= Literatur rechnen. Ein Wiki zur digitalen Textanalyse =
  
  
 +
Dieses Wiki ist ursprünglich im Wintersemester 2011/2012 an der Universität Göttingen von den Studierenden des Masterseminars "Literatur rechnen. Neue Wege der Textanalyse"  erarbeitet worden (zur Vorgehensweise, dem Aufbau der Artikel und den Mitwirkenden siehe [[Mitarbeiterinnen und Mitarbeiter]] und [[Acknowledgements]]).
  
 +
Das Wiki beschreibt momentan acht Tools zur digitalen Analyse von literarischen Texten:
  
 
 
 
 
Das Wiki beschreibt momentan acht Tools zur digitalen Textanalyse:
 
 
*[[AntConc]]
 
*[[AntConc]]
 
*[[CATMA]]  
 
*[[CATMA]]  
Zeile 22: Zeile 23:
 
*[[Google Ngram Viewer]]
 
*[[Google Ngram Viewer]]
 
*[[Scheherazade]]  
 
*[[Scheherazade]]  
*[[TextGrid]] ''wird momentan überarbeitet''
+
*[[TextGrid]]
 
*[[Voyant]]  
 
*[[Voyant]]  
 
*[[WMatrix]]
 
*[[WMatrix]]
  
Die Artikel wurden von den Teilnehmern und Teilnehmerinnen des Kurses selbstständig erstellt und im zweiten Schitt durch "peer review" von den Komilitoninnen und Komilitonen gegengelesen. Dieses Verfahren hat nicht nur dazu beigetragen, dass die Artikel wirklich eine einheitliche Struktur aufweisen, sondern insgesamt qualitativ ziemlich hochwertig sind. Die einzelnen Artikel sollen zukünftig regelmäßig überarbeitet werden, um Weiterentwicklungen der Tools abzubilden. Bitte schreiben Sie uns mit Kommentaren, Kritik oder Fragen: bherrma1@gwdg.de
+
Diese Tools wurden aus der großen Menge von digitalen Werkzeugen der Textanalyse ausgesucht. Dabei galten, neben persönlichem Interesse der Studierenden, die folgenden Kriterien:
  
Die Autorinnen und Autoren der Originalartikel sind hier zu finden: [[Mitarbeiterinnen und Mitarbeiter]]
+
*i.d.R. kostenfrei
 +
*leicht zugänglich
 +
*für AnfängerInnen ohne informatische Vorkenntnisse gut handhabbar
 +
*i.d.R. einschlägig.
  
  Im Vorlesungskommentar war dieser Text zu finden:
 
  In den letzten Jahren sind ganz neue Wege computergestützter Textanalyse entstanden. Sie erlauben es, Einzeltexte wie große Text-Korpora zu analysieren und das mit
 
  etablierten erzählanalytischen Verfahren wie mit ganz neuen Ansätzen, die erst der Computer ermöglicht. Das Seminar erprobt an ausgewählten Texten solche Wege,
 
  Literatur zu rechnen. Zum Einsatz kommen unterschiedliche Tools zur Annotierung, zum Textmining, zur Bestimmung von Textähnlichkeiten und andere Verfahren der
 
  Computerstilistik, der corpus narratology und Statistik u.a.
 
  
Die Tools wurden nach den folgenden Kriterien ausgesucht:... i.d.R. kostenfrei, leicht zugänglich, für AnfängerInnen handhabbar.
 
  
Struktur der Artikel:  
+
== Eine Annäherung an das "Rechnen von Literatur" ==
 +
[[Datei:Wordle_Sandmann.jpg|200px|thumb|left|Fig.1 - E.T.A. Hoffmann: ''Der Sandmann'' ohne Stoppwörter]]
 +
[[Datei:Wohl_Sandmann.png|200px|thumb|left|Fig.2 - E.T.A. Hoffmann: ''Der Sandmann'' Auszug aus einer Konkordanz von "wohl"]]
 +
[[Datei:Distributionsgraph_wohl.png|200px|thumb|left|Fig.3 - E.T.A. Hoffmann: ''Der Sandmann'' Distributionsgraph von "wohl"]]
 +
Mindestens zwei Dinge sind unerlässlich für die rechnergestützte Arbeit mit literarischen Texten – zum einen der Zugriff auf die literarischen Texte in digitaler „Volltext“-Form (die in gesammelter Form normalerweise „Korpus“ genannt werden), zum anderen ein informatisches Programm, das die digitale Analyse vorbereitet und/oder Berechnungen ermöglicht (vgl. auch den Beitrag von Rockwell im Wiki der Text Analysis Developers Alliance (TADA) [http://tada.mcmaster.ca/Main/WhatTA]. [[Korpora]] sind in diesem Sinne entweder Datenbanken, die Texte mit ähnlichen Charakteristika enthalten (spezialisierte Korpora) oder Datenbanken, die z.B. bestimmte Genres, Epochen oder "Literaturen" (oder Sprachen) insgesamt abbilden möchten und in diesem Sinne Repräsentativität anstreben (repräsentative Korpora). Die Aufgaben von Programmen der Textanalyse (die oft in Formm von sogenannten "Tools" bereitgestellt werden) fallen in ein sehr weites Spektrum – angefangen bei der simplen Erhebung von Wortfrequenzen und Konkordanzen, wie sie unten angerissen wird (siehe auch Fig. 1 und 2), über die Errechnung von Satz- und Wortlängen, die Verteilung von Lemmata, Wortarten und lexikalischer Dichte bis hin zur statistischen Errechnung von "Keywords", die überproportional häufig in bestimmten Texten/Stichproben im Vergleich mit großen Korpora vorkommen (vgl. Bondi & Scott, 2010). Neben spezialisierten "Tools" zu Textanalyse kann natürlich auch mit "echten" informatischen Progammiersprachen gearbeitet werden. Manche, wie zum Beispiel Python oder R, stellen Textanalyse-Pakete und Skripte zur Textanalyse bereit (vgl. Bird, Loper und Klein, 2009; Gries, 2009). Ein besonders avanciertes Forschungsfeld der digitalen Textanalyse sind automatisierte Verfahren (vgl. Carstensen, Ebert, Ebert, et al., 2010; Clark,  Fox, und Lappin, 2010). Hier kann zum Beispiel Stilähnlichkeit unterschiedlicher Texte nach Autoren oder Epochen gemessen werden (vgl. Burrows, 2002; Stylometry with R [https://sites.google.com/site/computationalstylistics/]) oder Zitationsspuren automatisch aufgefunden werden (eTraces-Projekt [http://etraces.e-humanities.net/]). Da aber bei weitem nicht alle Phänomene, die Textwissenschaftler interessieren, auf der Sprachoberfläche liegen, und so nicht ohne Weiteres von den Programmen erkannt werden können (vgl. Rommel, 2004), muss den Programmen oft händisch Starthilfe in Form eines "Markup" gegeben werden (vgl. Jannidis, 2010). So werden Phänomene textueller (bzw. semantischer, inhaltlicher, pragmatischer oder sonstiger) Art von Hand im Korpus (oder auch Einzeltexten) ausgezeichnet (vgl. Steen, Dorst, Herrmann, et al., 2010, die ein Korpus von 190.000 Wörtern auf metaphorischen Sprachgebrauch annotiert haben). Eine weitere Form des Anreicherns von Text sind Metadaten, die in größere Textmengen /Korpora systematisch eingepflegt werden. Typische Metadaten sind Autor/in, Gattung, Entstehungsdatum und Geschlecht von Autors/in (vgl. Jannidis, 2010). Die Anreicherung von Texten um solche Daten "jenseits der Textoberfläche" ermöglicht eine darauffolgende statistische Analyse, sowie Visualisierungen unterschiedlicher Art. So werden Muster sichtbar (vgl. Moretti, 2000).
  
[[Impressum]]
+
Die Analyse von Worthäufigkeiten in Einzeltexten kann aber auch eine "einfache" Inhalts- und Stilanalyse sein. Einen ersten Eindruck von den Möglichkeiten des "Rechnens von Literatur" in diesem Sinne gibt die Visualisierung von Worthäufigkeiten in Form von "word clouds", hier am Beispiel von E.T.A. Hoffmanns ''Der Sandmann'' (siehe Fig. 1, erstellt mit wordle [http://www.wordle.net/]). Die am häufigsten auftretenden Wörter werden hier am größten dargestellt, die weniger frequenten Wörter graduell kleiner. Nachdem in Fig. 1 zunächst Wörter entfernt wurden, die im Deutschen allgemein sehr häufig sind (sogenannte ''Stoppwörter'' zu denen z.B. Artikel (der, die, das), Konjunktionen (und), und Formen von "sein" zählen), fällt auf, dass die Eigennamen der Figuren (Nathanael, Klara, Coppelius/Coppola, Olimpia) sowie die Bezeichnungen "Sandmann" und "Mutter" besonders häufig sind. Zu den am häufigsten vorkommenden Wörtern gehören auch "Augen", "wohl", "immer" und "ganz". Dieser erste, in wenigen Sekunden generierte Überblick kann als Heuristik für die weitere Analyse des Textes dienen. Zum einen reflektieren die meisthäufigen Wörter den Inhalt der Erzählung im Hinblick auf die Figuren, scheinen aber in Verbindung zu den Motiven zu stehen. "Augen", als zentrales Motiv spielt also nicht nur qualitativ, sondern auch quantitativ eine besondere Rolle im Text. Ausgehend von den Worthäufigkeiten könnte die weitere Analyse dann auch weniger eindeutige Elemente in den Blick nehmen, zum Beispiel "wohl", das adverbiell, partikelhaft, konjunktional oder adjektivisch gebraucht werden kann, wobei die Bedeutungen stark divergieren können (vgl. DWDS [http://www.dwds.de/]). "Wohl" kann z.B. ausdrücken "dass ein Zweifel entkräftet werden soll; durchaus, ohne weiteres" (DWDS) - aber auch, dass eine Ungewissheit eingeräumt wird: "wahrscheinlich, anscheinend, vermutlich" (DWDS). In Bezug auf ''Der Sandmann'', einer Erzählung, die mit der Verschränkung von Realem und Irrealem in der erzählten Welt spielt, ist es also spannend zu klären, welche Funktion das Wort "wohl" als eines der am häufigsten auftretenden im Text hat. Dies wird in der digitalen Textanalyse oft mit Hilfe von Konkordanzen (oder "Keyword in Context"- KWIC - Ansichten, vgl. Müller, 2013) getan. Fig. 2 bildet die einige Fälle des Auftretens von "wohl" in Der Sandmann ab. Eine weitere Analyse würde nun mit Hilfe der Konkordanz nach Mustern im Gebrauch von "wohl" in Verbindung mit der direkten textuellen Umgebung suchen. Für die Analyse kann auch eine Visualisierung der Verteilung des Wortes über den Text hilfreich sein, wie z.B. in Form eines Distributionsgraphes in Fig. 3 (erstellt mit [[Voyant]]). Hier kann mit einem Blick erfasst werden, wo das gesuchte Wort im Text ungefähr auftaucht, und wie häufig es ist. Wortcloud, Konkordanz und Distributionsgraph sind sehr einfache frequenzbasierte Mittel der digitalen Suche nach Wörtern und Wortverbindungen um Muster innerhalb eines Textes oder Korpus zu erkennen.
  
[[Mitarbeiterinnen und Mitarbeiter]]
+
== Erwähnte Literatur und Literatur zur Einführung ==
  
== '''Links zur Digitalen Textanalyse ==
+
* Bird, S., Loper, E., und Klein, E. (2009). ''Natural Language Processing with Python''. Sebastopol, CA: O’Reilly.
Die eigenen Internetauftritte der Tools sind jeweils in den Artikeln verlinkt, hier findet man Informationen zu [[Korpora]]. Eine Auswahl von Links zum Thema digitale Textanalyse ist hier zu finden:
+
* Bondi, M. & Scott. M.(2010). ''Keyness in Texts''. [Studies in Corpus Linguistics, 41]. Amsterdam: John Benjamins.
 +
* Bubenhofer, N. (2006-2011). ''Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge''. Elektronische Ressource: [http://www.bubenhofer.com/korpuslinguistik/].
 +
* Burrows, J. (2002). Delta: A Measure for Stylistic Difference and a Guide to Likely Authorship. ''Literary and Linguistic Computing'' Vol. 17, No. 3.
 +
* Cameron, L. & Deignan, A. (2003). Combining Large and Small Corpora to Investigate Tuning Devices Around Metaphor in Spoken Discourse. ''Metaphor and Symbol'', Vol. 18, No. 3, S. 149–160 [http://cognitivecanary.eu/images/4.-Cameron_deignan.pdf]
 +
* Craig, Hugh (2013). Middle-distance Reading with Information-theory Metrics. (Vortrag) http://www.gcdh.de/en/research/prof.-hugh-craig-middle-distance-reading-with-information-theory-metrics
 +
* Crane, G. (2006). What do you do With a Million Books, ''D-Lib-magazine'' Vol. 12, No. 3.
 +
* Carstensen, K.-U. , Ebert, C., Ebert, C. , Jekat, S., Klabunde, R., und Langer, H. (Hg.) (2010), ''Computerlinguistik und Sprachtechnologie: Eine Einführung'', Heidelberg: Spektrum Akademischer Verlag.
 +
* Clark, C., Fox, C., und Lappin, S. (Hg.) (2010). ''The Handbook of Computational Linguistics and Natural Language Processing''. Oxford: Wiley-Blackwell.
 +
* Gries, S. (2009). ''Quantitative Corpus Linguistics with R: A Practical Introduction''. London & New York: Routledge.
 +
* Hoover, D. (2007). The End of the Irrelevant Text: Electronic Texts, Linguistics, and Literary Theory, ''DHQ'', Vol. 1 No. 2.
 +
* Howe, J., Connoly, R., und Windram, H.F. (2012). Responding to Criticisms of Phylogenetic Methods in Stemmatology, ''SEL Studies in English Literature 1500-1900'', Vol. 52, No. 1, S. 51-67.
 +
* Jannidis, F. (2010). Methoden der computergestützten Textanalyse. In: V. u. A. Nünning (Hg.), ''Methoden der literatur- und kulturwissenschaftlichen Textanalyse'', Stuttgart/Weimar: Metzler, S. 109-132.
 +
* Juola, P. (2008). Authorship Attribution. ''Foundations and Trends in Information Retrieval''. Vol. 1, No. 3, S. 233–334.
 +
* Kenny, A. (1982). ''The Computation of Style''. Oxford & New York: Pergamon Press.
 +
* Lüdeling, A. und Kytö, M. (2008) (Eds.), ''Corpus Linguistics. An International Handbook''. Berlin: Mouton de Gruyter.
 +
* Michel, J.-B., et al. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books, ''Science'' Vol. 331, S. 176-82.
 +
* Moretti, F. (2000). Conjectures on World Literature, in: ''New Left Review'' Vol. 1, S. 54-68.
 +
* Müller, R. (2013). Parallelstellenmethode – digital. Philologische Erfahrung, Empirisierung, Texte und Korpora, in: Philip Ajouri, Katja Mellmann, Christoph Rauen (Hg.), ''Empirie in der Literaturwissenschaft''. Mentis: Paderborn. S. 181–200.
 +
* Ransom, J. C. (1937). Criticism, Inc., ''The Virginia Quarterly Review'', Autumn 1937. [http://www.vqronline.org/articles/1937/autumn/ransom-criticism-inc/]
 +
* Rommel, T. (2004). Literary Studies, in: S. Schreibman, R. Siemens u. J. Unsworth (Hg.), ''Companion to Digital Humanities.'' Oxford. [http://www.digitalhumanities.org/companion/]
 +
* Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ''ACM Comput. Surv.'', Vol. 34, No. 1, S. 1-47.
 +
* Sinclair, J. (1991). ''Corpus, Concordance, Collocation.'' Oxford: Oxford University Press.
 +
* Sinclair, J. (2004). ''Trust the text. Language, corpus and discourse.'' Routledge.
 +
* Steen, G. J., Dorst, A. G., Herrmann, J. B., Kaal, A. A., und Krennmayr, T. (2010). Metaphor in Usage. ''Cognitive Linguistics'', Vol. 21, No. 4, S. 765-796.
 +
* Trilcke, P. (2013). Social Network Analysis (SNA) als Methode einer textempirischen Literaturwissenschaft, in: Philip Ajouri, Katja Mellmann, Christoph Rauen (Hg.), ''Empirie in der Literaturwissenschaft''. Mentis: Paderborn.
  
* Göttingen Centre for Digital Humanities (GCDH) http://www.gcdh.de/en/
+
== Links zur Digitalen Textanalyse ==
* Digital Humanities im deutschsprachigen Raum (DHd) Blog http://dhd-blog.org/
+
* http://corplinguistics.wordpress.com/
+
  
[[Weitere Tools]]
 
  
Eine Übersicht zu (deutschsprachigen, literarischen) Korpora ist hier zu finden:[[Korpora]]
+
Die eigenen Internetauftritte der im Wiki beschriebenen Tools sind jeweils in den Artikeln verlinkt.
  
 +
Weitere Tools und Informationen zu (literarischen) Korpora sind hier zu finden:
 +
*[[Weitere Tools]]
 +
*[[Korpora]]
 +
 +
Eine Auswahl von Links zu Personen, Gruppen, Projekten, Ressourcen (etc.) ist hier zu finden:
 +
*[[Textanalyse]]
 +
 +
Einige Blogs:
 +
* Scalable Reading (Martin Mueller, Stephen Ramsay, Ted Underwood & Matthew Wilkens) https://scalablereading.northwestern.edu/2012/02/24/hello-world/
 +
* Digital Humanities im deutschsprachigen Raum (DHd) http://dhd-blog.org/
 +
* Ronald Pearson (companion blog to his recent book, Exploring Data in Engineering, the Sciences, and Medicine) http://exploringdatablog.blogspot.co.uk/
 +
* Tyler Schnoebelen ("this blog is meant to help linguists do research using corpora and quantitative methods") http://corplinguistics.wordpress.com/
 +
 +
== Impressum ==
 +
[[Impressum]]
 +
 +
[[Mitarbeiterinnen und Mitarbeiter]]
  
 +
[[Acknowledgements]]
  
 
   Bitte zitieren Sie das Wiki bei Bedarf auf die folgende Art und Weise:
 
   Bitte zitieren Sie das Wiki bei Bedarf auf die folgende Art und Weise:
  ''Herrmann, B. (Hg.),(2012). Literatur rechnen. Ein Wiki zur digitalen Textanalyse.(Digitale Ressource)http://litre.uni-goettingen.de/wiki/index.php/Hauptseite'' DOI?
+
Herrmann, J. B. (Hg.),(2012). Literatur rechnen. Ein Wiki zur digitalen Textanalyse.(Digitale Ressource). http://litre.uni-goettingen.de/index.php/Hauptseite
   Ein einzelner Artikel zum Beispiel so:
+
   ... und einen einzelnen Artikel zum Beispiel so:
  ''Droste, K. (2012). AntConc [Version: Datum]. In: B. Herrmann (Hg.), Literatur rechnen. Ein Wiki zur digitalen Textanalyse. (Digitale Ressource)http://litre.uni-goettingen.de/wiki/index.php/AntConc''
+
Droste, K. (2012). AntConc [Version: Datum]. In: J. B. Herrmann (Hg.), Literatur rechnen. Ein Wiki zur digitalen Textanalyse. (Digitale Ressource).
 +
  http://litre.uni-goettingen.de/wiki/index.php/AntConc

Version vom 2. November 2017, 11:16 Uhr

Unser LitRe-Wiki ist seit 2012 nicht eingreifend überarbeitet worden. Es bildet also den damaligen Stand ab. Um Weiterentwicklungen der digitalen Textanalyse abzubilden, sollen nun die Artikel peu à peu überarbeitet werden, und weitere Artikel hinzukommen.

Interesse? Haben Sie Lust, einen Artikel zu überarbeiten oder neu zu verfassen? Schreiben Sie uns! Auch Kommentare, Kritik oder Fragen sind willkommen: berenike.herrmann at unibas.ch

Literatur rechnen, oder digitale Textanalyse, ist eine wissenschaftliche Tätigkeit, die digitalisierte (literarische) Texte mithilfe von rechnerischen Programmen analysiert und beschreibt. Das "Rechnen" von Literatur kann ganz unterschiedliche Formen haben: es kann nah am Text bleiben und den Computer als Hilfsmittel für eine eher traditionelle Analyse von kleinen Textmengen einsetzen (Stichwort close reading, vgl. Ransom, 1937), es kann aber auch eine große Distanz zum Text selbst einnehmen und die Analyse von grossen Datenmengen leisten (Stichwort distant reading, vgl. Lauer, 2009; Moretti, 2000). Eine Verbindung zwischen beiden Methoden ist gegeben, wenn Analysen auf mittlerer Distanz (vgl. Craig, 2013) durchgeführt werden, zum Beispiel durch Einspeisen von Ergebnissen aus händischen digitalen Analysen in Suchanfragen, die über grosse Textkorpora laufen (z.B. der "small corpus-large corpus"-Ansatz von Cameron & Deignan, 2003).

Die in diesem Wiki erwähnten Methoden decken die gesamte Bandbreite zwischen digitalem close reading, middle distant reading und distant reading ab.


Literatur rechnen. Ein Wiki zur digitalen Textanalyse

Dieses Wiki ist ursprünglich im Wintersemester 2011/2012 an der Universität Göttingen von den Studierenden des Masterseminars "Literatur rechnen. Neue Wege der Textanalyse" erarbeitet worden (zur Vorgehensweise, dem Aufbau der Artikel und den Mitwirkenden siehe Mitarbeiterinnen und Mitarbeiter und Acknowledgements).

Das Wiki beschreibt momentan acht Tools zur digitalen Analyse von literarischen Texten:

Diese Tools wurden aus der großen Menge von digitalen Werkzeugen der Textanalyse ausgesucht. Dabei galten, neben persönlichem Interesse der Studierenden, die folgenden Kriterien:

  • i.d.R. kostenfrei
  • leicht zugänglich
  • für AnfängerInnen ohne informatische Vorkenntnisse gut handhabbar
  • i.d.R. einschlägig.


Eine Annäherung an das "Rechnen von Literatur"

Fig.1 - E.T.A. Hoffmann: Der Sandmann ohne Stoppwörter
Fig.2 - E.T.A. Hoffmann: Der Sandmann Auszug aus einer Konkordanz von "wohl"
Fig.3 - E.T.A. Hoffmann: Der Sandmann Distributionsgraph von "wohl"

Mindestens zwei Dinge sind unerlässlich für die rechnergestützte Arbeit mit literarischen Texten – zum einen der Zugriff auf die literarischen Texte in digitaler „Volltext“-Form (die in gesammelter Form normalerweise „Korpus“ genannt werden), zum anderen ein informatisches Programm, das die digitale Analyse vorbereitet und/oder Berechnungen ermöglicht (vgl. auch den Beitrag von Rockwell im Wiki der Text Analysis Developers Alliance (TADA) [1]. Korpora sind in diesem Sinne entweder Datenbanken, die Texte mit ähnlichen Charakteristika enthalten (spezialisierte Korpora) oder Datenbanken, die z.B. bestimmte Genres, Epochen oder "Literaturen" (oder Sprachen) insgesamt abbilden möchten und in diesem Sinne Repräsentativität anstreben (repräsentative Korpora). Die Aufgaben von Programmen der Textanalyse (die oft in Formm von sogenannten "Tools" bereitgestellt werden) fallen in ein sehr weites Spektrum – angefangen bei der simplen Erhebung von Wortfrequenzen und Konkordanzen, wie sie unten angerissen wird (siehe auch Fig. 1 und 2), über die Errechnung von Satz- und Wortlängen, die Verteilung von Lemmata, Wortarten und lexikalischer Dichte bis hin zur statistischen Errechnung von "Keywords", die überproportional häufig in bestimmten Texten/Stichproben im Vergleich mit großen Korpora vorkommen (vgl. Bondi & Scott, 2010). Neben spezialisierten "Tools" zu Textanalyse kann natürlich auch mit "echten" informatischen Progammiersprachen gearbeitet werden. Manche, wie zum Beispiel Python oder R, stellen Textanalyse-Pakete und Skripte zur Textanalyse bereit (vgl. Bird, Loper und Klein, 2009; Gries, 2009). Ein besonders avanciertes Forschungsfeld der digitalen Textanalyse sind automatisierte Verfahren (vgl. Carstensen, Ebert, Ebert, et al., 2010; Clark, Fox, und Lappin, 2010). Hier kann zum Beispiel Stilähnlichkeit unterschiedlicher Texte nach Autoren oder Epochen gemessen werden (vgl. Burrows, 2002; Stylometry with R [2]) oder Zitationsspuren automatisch aufgefunden werden (eTraces-Projekt [3]). Da aber bei weitem nicht alle Phänomene, die Textwissenschaftler interessieren, auf der Sprachoberfläche liegen, und so nicht ohne Weiteres von den Programmen erkannt werden können (vgl. Rommel, 2004), muss den Programmen oft händisch Starthilfe in Form eines "Markup" gegeben werden (vgl. Jannidis, 2010). So werden Phänomene textueller (bzw. semantischer, inhaltlicher, pragmatischer oder sonstiger) Art von Hand im Korpus (oder auch Einzeltexten) ausgezeichnet (vgl. Steen, Dorst, Herrmann, et al., 2010, die ein Korpus von 190.000 Wörtern auf metaphorischen Sprachgebrauch annotiert haben). Eine weitere Form des Anreicherns von Text sind Metadaten, die in größere Textmengen /Korpora systematisch eingepflegt werden. Typische Metadaten sind Autor/in, Gattung, Entstehungsdatum und Geschlecht von Autors/in (vgl. Jannidis, 2010). Die Anreicherung von Texten um solche Daten "jenseits der Textoberfläche" ermöglicht eine darauffolgende statistische Analyse, sowie Visualisierungen unterschiedlicher Art. So werden Muster sichtbar (vgl. Moretti, 2000).

Die Analyse von Worthäufigkeiten in Einzeltexten kann aber auch eine "einfache" Inhalts- und Stilanalyse sein. Einen ersten Eindruck von den Möglichkeiten des "Rechnens von Literatur" in diesem Sinne gibt die Visualisierung von Worthäufigkeiten in Form von "word clouds", hier am Beispiel von E.T.A. Hoffmanns Der Sandmann (siehe Fig. 1, erstellt mit wordle [4]). Die am häufigsten auftretenden Wörter werden hier am größten dargestellt, die weniger frequenten Wörter graduell kleiner. Nachdem in Fig. 1 zunächst Wörter entfernt wurden, die im Deutschen allgemein sehr häufig sind (sogenannte Stoppwörter zu denen z.B. Artikel (der, die, das), Konjunktionen (und), und Formen von "sein" zählen), fällt auf, dass die Eigennamen der Figuren (Nathanael, Klara, Coppelius/Coppola, Olimpia) sowie die Bezeichnungen "Sandmann" und "Mutter" besonders häufig sind. Zu den am häufigsten vorkommenden Wörtern gehören auch "Augen", "wohl", "immer" und "ganz". Dieser erste, in wenigen Sekunden generierte Überblick kann als Heuristik für die weitere Analyse des Textes dienen. Zum einen reflektieren die meisthäufigen Wörter den Inhalt der Erzählung im Hinblick auf die Figuren, scheinen aber in Verbindung zu den Motiven zu stehen. "Augen", als zentrales Motiv spielt also nicht nur qualitativ, sondern auch quantitativ eine besondere Rolle im Text. Ausgehend von den Worthäufigkeiten könnte die weitere Analyse dann auch weniger eindeutige Elemente in den Blick nehmen, zum Beispiel "wohl", das adverbiell, partikelhaft, konjunktional oder adjektivisch gebraucht werden kann, wobei die Bedeutungen stark divergieren können (vgl. DWDS [5]). "Wohl" kann z.B. ausdrücken "dass ein Zweifel entkräftet werden soll; durchaus, ohne weiteres" (DWDS) - aber auch, dass eine Ungewissheit eingeräumt wird: "wahrscheinlich, anscheinend, vermutlich" (DWDS). In Bezug auf Der Sandmann, einer Erzählung, die mit der Verschränkung von Realem und Irrealem in der erzählten Welt spielt, ist es also spannend zu klären, welche Funktion das Wort "wohl" als eines der am häufigsten auftretenden im Text hat. Dies wird in der digitalen Textanalyse oft mit Hilfe von Konkordanzen (oder "Keyword in Context"- KWIC - Ansichten, vgl. Müller, 2013) getan. Fig. 2 bildet die einige Fälle des Auftretens von "wohl" in Der Sandmann ab. Eine weitere Analyse würde nun mit Hilfe der Konkordanz nach Mustern im Gebrauch von "wohl" in Verbindung mit der direkten textuellen Umgebung suchen. Für die Analyse kann auch eine Visualisierung der Verteilung des Wortes über den Text hilfreich sein, wie z.B. in Form eines Distributionsgraphes in Fig. 3 (erstellt mit Voyant). Hier kann mit einem Blick erfasst werden, wo das gesuchte Wort im Text ungefähr auftaucht, und wie häufig es ist. Wortcloud, Konkordanz und Distributionsgraph sind sehr einfache frequenzbasierte Mittel der digitalen Suche nach Wörtern und Wortverbindungen um Muster innerhalb eines Textes oder Korpus zu erkennen.

Erwähnte Literatur und Literatur zur Einführung

  • Bird, S., Loper, E., und Klein, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly.
  • Bondi, M. & Scott. M.(2010). Keyness in Texts. [Studies in Corpus Linguistics, 41]. Amsterdam: John Benjamins.
  • Bubenhofer, N. (2006-2011). Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: [6].
  • Burrows, J. (2002). Delta: A Measure for Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing Vol. 17, No. 3.
  • Cameron, L. & Deignan, A. (2003). Combining Large and Small Corpora to Investigate Tuning Devices Around Metaphor in Spoken Discourse. Metaphor and Symbol, Vol. 18, No. 3, S. 149–160 [7]
  • Craig, Hugh (2013). Middle-distance Reading with Information-theory Metrics. (Vortrag) http://www.gcdh.de/en/research/prof.-hugh-craig-middle-distance-reading-with-information-theory-metrics
  • Crane, G. (2006). What do you do With a Million Books, D-Lib-magazine Vol. 12, No. 3.
  • Carstensen, K.-U. , Ebert, C., Ebert, C. , Jekat, S., Klabunde, R., und Langer, H. (Hg.) (2010), Computerlinguistik und Sprachtechnologie: Eine Einführung, Heidelberg: Spektrum Akademischer Verlag.
  • Clark, C., Fox, C., und Lappin, S. (Hg.) (2010). The Handbook of Computational Linguistics and Natural Language Processing. Oxford: Wiley-Blackwell.
  • Gries, S. (2009). Quantitative Corpus Linguistics with R: A Practical Introduction. London & New York: Routledge.
  • Hoover, D. (2007). The End of the Irrelevant Text: Electronic Texts, Linguistics, and Literary Theory, DHQ, Vol. 1 No. 2.
  • Howe, J., Connoly, R., und Windram, H.F. (2012). Responding to Criticisms of Phylogenetic Methods in Stemmatology, SEL Studies in English Literature 1500-1900, Vol. 52, No. 1, S. 51-67.
  • Jannidis, F. (2010). Methoden der computergestützten Textanalyse. In: V. u. A. Nünning (Hg.), Methoden der literatur- und kulturwissenschaftlichen Textanalyse, Stuttgart/Weimar: Metzler, S. 109-132.
  • Juola, P. (2008). Authorship Attribution. Foundations and Trends in Information Retrieval. Vol. 1, No. 3, S. 233–334.
  • Kenny, A. (1982). The Computation of Style. Oxford & New York: Pergamon Press.
  • Lüdeling, A. und Kytö, M. (2008) (Eds.), Corpus Linguistics. An International Handbook. Berlin: Mouton de Gruyter.
  • Michel, J.-B., et al. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books, Science Vol. 331, S. 176-82.
  • Moretti, F. (2000). Conjectures on World Literature, in: New Left Review Vol. 1, S. 54-68.
  • Müller, R. (2013). Parallelstellenmethode – digital. Philologische Erfahrung, Empirisierung, Texte und Korpora, in: Philip Ajouri, Katja Mellmann, Christoph Rauen (Hg.), Empirie in der Literaturwissenschaft. Mentis: Paderborn. S. 181–200.
  • Ransom, J. C. (1937). Criticism, Inc., The Virginia Quarterly Review, Autumn 1937. [8]
  • Rommel, T. (2004). Literary Studies, in: S. Schreibman, R. Siemens u. J. Unsworth (Hg.), Companion to Digital Humanities. Oxford. [9]
  • Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Comput. Surv., Vol. 34, No. 1, S. 1-47.
  • Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.
  • Sinclair, J. (2004). Trust the text. Language, corpus and discourse. Routledge.
  • Steen, G. J., Dorst, A. G., Herrmann, J. B., Kaal, A. A., und Krennmayr, T. (2010). Metaphor in Usage. Cognitive Linguistics, Vol. 21, No. 4, S. 765-796.
  • Trilcke, P. (2013). Social Network Analysis (SNA) als Methode einer textempirischen Literaturwissenschaft, in: Philip Ajouri, Katja Mellmann, Christoph Rauen (Hg.), Empirie in der Literaturwissenschaft. Mentis: Paderborn.

Links zur Digitalen Textanalyse

Die eigenen Internetauftritte der im Wiki beschriebenen Tools sind jeweils in den Artikeln verlinkt.

Weitere Tools und Informationen zu (literarischen) Korpora sind hier zu finden:

Eine Auswahl von Links zu Personen, Gruppen, Projekten, Ressourcen (etc.) ist hier zu finden:

Einige Blogs:

Impressum

Impressum

Mitarbeiterinnen und Mitarbeiter

Acknowledgements

 Bitte zitieren Sie das Wiki bei Bedarf auf die folgende Art und Weise:

Herrmann, J. B. (Hg.),(2012). Literatur rechnen. Ein Wiki zur digitalen Textanalyse.(Digitale Ressource). http://litre.uni-goettingen.de/index.php/Hauptseite

 ... und einen einzelnen Artikel zum Beispiel so:

Droste, K. (2012). AntConc [Version: Datum]. In: J. B. Herrmann (Hg.), Literatur rechnen. Ein Wiki zur digitalen Textanalyse. (Digitale Ressource).

 http://litre.uni-goettingen.de/wiki/index.php/AntConc