Hauptseite: Unterschied zwischen den Versionen

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche
(Literatur rechnen. Ein Wiki zur digitalen Textanalyse)
(Literatur rechnen. Ein Wiki zur digitalen Textanalyse)
Zeile 15: Zeile 15:
 
*[[WMatrix]]
 
*[[WMatrix]]
  
Diese Tools wurden aus der großen Menge von digitalen Werkzeugen der Textanalyse nach den folgenden Kriterien ausgesucht: i.d.R. kostenfrei, leicht zugänglich, für AnfängerInnen ohne informatische Vorkenntnisse gut handhabbar und id.R. einschlägig. Eine Vielzahl von leistungsstarken und einschlägigen Tools kann aus praktischen Gründen nicht im Wiki abgebildet werden. Hier ist eine Übersicht in Arbeit: [[Weitere Tools]]
+
Diese Tools wurden aus der großen Menge von digitalen Werkzeugen der Textanalyse nach den folgenden Kriterien ausgesucht: i.d.R. kostenfrei, leicht zugänglich, für AnfängerInnen ohne informatische Vorkenntnisse gut handhabbar und i.d.R. einschlägig. Eine Vielzahl von leistungsstarken und einschlägigen Tools kann aus praktischen Gründen nicht im Wiki abgebildet werden. Hier ist eine Übersicht in Arbeit: [[Weitere Tools]]
  
 
Die einzelnen Artikel sollen zukünftig regelmäßig überarbeitet werden, um Weiterentwicklungen der Tools abzubilden. Bitte schreiben Sie uns mit Kommentaren, Kritik oder Fragen: bherrma1@gwdg.de
 
Die einzelnen Artikel sollen zukünftig regelmäßig überarbeitet werden, um Weiterentwicklungen der Tools abzubilden. Bitte schreiben Sie uns mit Kommentaren, Kritik oder Fragen: bherrma1@gwdg.de

Version vom 7. Juni 2013, 11:24 Uhr

Literatur rechnen. Ein Wiki zur digitalen Textanalyse

Dieses Wiki ist ursprünglich im Wintersemester 2011/2012 an der Universität Göttingen von den Studierenden des Masterseminars "Literatur rechnen. Neue Wege der Textanalyse" unter Leitung der Dozentin Berenike Herrmann erarbeitet worden: Katrin Droste, Sarah Eilers, Ramona Heileck, Martin Hinze, Sarah Koch, Margarete Leissa, Stephanie Jennie Leitz und Stefanie Rößler (studentische Hilfskraft mit EDV-Know-How war Malte Gerloff).

Die Artikel wurden von den Teilnehmern und Teilnehmerinnen des Kurses selbstständig erstellt und im zweiten Schitt durch "peer review" von den Komilitoninnen und Komilitonen kritisch gegengelesen und kommentiert. Dieses Feedback wurde dann in die Überarbeitung der Artikel eingebracht. Dieses Verfahren hat nicht nur dazu beigetragen, dass die Artikel wirklich eine einheitliche Struktur aufweisen, sondern insgesamt qualitativ ziemlich hochwertig sind. Die einzelnen Artikel sind parallel aufgebaut: auf einen Abschnitt zu "Allgemeinen Voraussetzungen" folgt die "Detaillierte Beschreibung des Tools", mit "Automatischen und händischen Arbeitsschritten" und eine detaillierte Beschreibung der "Art der Analyse". Dann widmet sich je ein Abschnitt der "Daten-Einspeisung", der "Benutzerfreundlichkeit" und "Transparenz". Schliesslich folgt ein "Fazit", in dem das Tool insgesamt aus literaturwissenschaftlicher Anwenderperspektive bewertet wird. Besonders interessant könnte für Interessierte die "Beispielanwendung" sein, die auf spielerische Art und Weise (also nicht als ausgewachsene Analyse) Möglichkeiten des Tools in einer konkreten Anwendung aufzeigt. Das Wiki beschreibt momentan acht Tools zur digitalen Analyse von literarischen Texten:

Diese Tools wurden aus der großen Menge von digitalen Werkzeugen der Textanalyse nach den folgenden Kriterien ausgesucht: i.d.R. kostenfrei, leicht zugänglich, für AnfängerInnen ohne informatische Vorkenntnisse gut handhabbar und i.d.R. einschlägig. Eine Vielzahl von leistungsstarken und einschlägigen Tools kann aus praktischen Gründen nicht im Wiki abgebildet werden. Hier ist eine Übersicht in Arbeit: Weitere Tools

Die einzelnen Artikel sollen zukünftig regelmäßig überarbeitet werden, um Weiterentwicklungen der Tools abzubilden. Bitte schreiben Sie uns mit Kommentaren, Kritik oder Fragen: bherrma1@gwdg.de

Eine Annäherung an das "Rechnen von Literatur"

Fig.1 - E.T.A. Hoffmann: Der Sandmann ohne Stoppwörter
Fig.2 - E.T.A. Hoffmann: Der Sandmann Auszug aus einer Konkordanz von "wohl"

Mindestens zwei Dinge sind unerlässlich für die rechnergestützte Arbeit mit literarischen Texten – zum einen der Zugriff auf die literarischen Texte in digitaler „Volltext“-Form (die in gesammelter Form normalerweise „Korpus“ genannt werden), zum anderen ein informatisches Programm, das die digitale Analyse vorbereitet und/oder Berechnungen ermöglicht. Korpora sind in diesem Sinne entweder Datenbanken, die Texte mit ähnlichen Charakteristika enthalten (spezialisierte Korpora) oder Datenbanken, die z.B. bestimmte Genres, Epochen oder "Literaturen" (oder Sprachen) insgesamt abbilden möchten und in diesem Sinne Repräsentativität anstreben. Die Aufgaben von Programmen der Textanalyse (die oft in Formm von sogenannten "Tools" bereitgestellt werden) fallen in ein sehr weites Spektrum – angefangen bei der simplen Erhebung von Wortfrequenzen und Konkordanzen, wie sie unten angerissen wird (siehe auch Fig. 1 und 2), über die Errechnung von Satz- und Wortlängen, die Verteilung von Lemmata, Wortarten und lexikalischer Dichte bis hin zur statistischen Errechnung von "Keywords", die überproportional häufig in bestimmten Texten/Stichproben im Vergleich mit großen Korpora vorkommen (vgl. Bondi & Scott, 2010). Neben spezialisierten "Tools" zu Textanalyse kann natürlich auch mit "echten" informatischen Progammiersprachen gearbeitet werden. Manche, wie zum Beispiel Python oder R, stellen Textanalyse-Pakete und Skripte zur Textanalyse bereit(vgl. Bird, Loper und Klein, 2009; Gries, 2009). Ein besonders avanciertes Forschungsfeld der digitalen Textanalyse sind automatisierte Verfahren (vgl. Clark, Fox, und Lappin, 2010; Carstensen, Ebert, Ebert, et al., 2010). Hier kann zum Beispiel Stilähnlichkeit unterschiedlicher Texte nach Autoren oder Epochen gemessen werden (vgl. Burrows, 2002; Stylometry with R [1]) oder Zitationsspuren automatisch aufgefunden werden (eTraces-Projekt [2]). Da aber bei weitem nicht alle Phänomene, die Textwissenschaftler interessieren, auf der Sprachoberfläche liegen, und so nicht ohne Weiteres von den Programmen erkannt werden können (vgl. Rommel, 2004), muss den Programmen oft händisch Starthilfe in Form eines "Markup" gegeben werden (vgl. Jannidis, 2010). So werden Phänomene textueller (bzw. semantischer, inhaltlicher, pragmatischer oder sonstiger) Art von Hand im Korpus (oder auch Einzeltexten) ausgezeichnet (vgl. Steen, Dorst, Herrmann, et al., 2010, die ein Korpus von 190.000 Wörtern auf metaphorischen Sprachgebrauch annotiert haben). Eine weitere Form des Anreicherns von Text sind Metadaten, die in größere Textmengen /Korpora systematisch eingepflegt werden. Typische Metadaten sind Autor/in, Gattung, Entstehungsdatum und Geschlecht von Autors/in (vgl. Jannidis, 2010). Die Anreicherung von Texten um solche Daten "jenseits der Textoberfläche" ermöglicht eine darauffolgende statistische Analyse, sowie Visualisierungen unterschiedlicher Art. So werden Muster sichtbar (vgl. Moretti, 2000).

Die Analyse von Worthäufigkeiten in Einzeltexten kann aber auch eine "einfache" Inhalts- und Stilanalyse sein. Einen ersten Eindruck von den Möglichkeiten des "Rechnens von Literatur" in diesem Sinne gibt die Visualisierung von Worthäufigkeiten in Form von "word clouds", hier am Beispiel von E.T.A. Hoffmanns Der Sandmann (siehe Fig.1). Die am häufigsten auftretenden Wörter werden hier am größten dargestellt, die weniger häufigen Wörter graduell kleiner. Nachdem in Fig. 1 zunächst Wörter entfernt wurden, die im Deutschen allgemein sehr häufig sind (sogenannte Stoppwörter wie Konjunktionen, Artikel und Formen von "sein"), fällt auf, dass die Eigennamen der Figuren (Nathanael, Klara, Coppelius/Coppola, Olimpia) sowie die Bezeichnungen "Sandmann" und "Mutter" besonders häufig sind. Zu den am häufigsten vorkommenden Wörtern gehören auch "Augen", "wohl", "immer" und "ganz". Dieser erste, in wenigen Sekunden generierte Überblick kann als Heuristik für die weitere Analyse des Textes dienen. Zum einen reflektieren die meisthäufigen Wörter den Inhalt der Erzählung im Hinblick auf die Figuren, scheinen aber in Verbindung zum zentralen Motiv der "Augen" zu stehen. "Augen" spielt also nicht nur qualitativ, sondern auch quantitativ eine besondere Rolle im Text. Ausgehend von den Worthäufigkeiten könnte die weitere Analyse dann auch weniger eindeutige Elemente in den Blick nehmen, zum Beispiel "wohl", das adverbiell, partikelhaft, konjunktional oder adjektivisch gebraucht werden kann, wobei die Bedeutungen stark divergieren können (vgl. DWDS [3]). "Wohl" kann z.B. ausdrücken "dass ein Zweifel entkräftet werden soll; durchaus, ohne weiteres" (DWDS) - aber auch, dass eine Ungewissheit eingeräumt wird: "wahrscheinlich, anscheinend, vermutlich" (DWDS). In Bezug auf Der Sandmann, eine Erzählung, die mit der Verschränkung von Realem und Irrealem in der erzählten Welt spielt, ist es also spannend zu klären, welche Funktion das Wort "wohl" als eines der am häufigsten auftretenden im Text hat. Dies wird oft mit Hilfe von Konkordanzen (oder "Keyword in Context"- KWIC - Ansichten) getan, wie in Fig.2, die einige Fälle des Auftretens von "wohl" im Sandmann abbildet.

Literatur zur Einführung

  • Bird, S., Loper, E., und Klein, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly.
  • Bondi, M. & Scott. M.(2010). Keyness in Texts. [Studies in Corpus Linguistics, 41]. Amsterdam: John Benjamins.
  • Bubenhofer, N.(2006-2011). Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: [4].
  • Burrows, J. (2002). Delta: A Measure for Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing Vol. 17, No. 3.
  • Crane, G. (2006). What do you do With a Million Books, D-Lib-magazine Vol. 12, 3.
  • Carstensen, K.-U. , Ebert, C., Ebert, C. , Jekat, S., Klabunde, R., und Langer, H. (Hg.) (2010), Computerlinguistik und Sprachtechnologie: Eine Einführung, Heidelberg: Spektrum Akademischer Verlag.
  • Clark, C., Fox, C., und Lappin, S. (Hg.) (2010). The Handbook of Computational Linguistics and Natural Language Processing, Oxford: Wiley-Blackwell.
  • Gries, S. (2009). Quantitative Corpus Linguistics with R: A Practical Introduction. London & New York: Routledge.
  • Hoover, D. (2007). The End of the Irrelevant Text: Electronic Texts, Linguistics, and Literary Theory, DHQ, Vol. 1 No. 2.
  • Howe, J., Connoly, R., und Windram, H.F. (2012). Responding to Criticisms of Phylogenetic Methods in Stemmatology, SEL Studies in English Literature 1500-1900, Vol. 52, No. 1, S. 51-67.
  • Jannidis, F. (2010). Methoden der computergestützten Textanalyse. In: V. u. A. Nünning (Hg.), Methoden der literatur- und kulturwissenschaftlichen Textanalyse, Stuttgart/Weimar: Metzler, S. 109-132.
  • Juola, P. (2008). Authorship Attribution. Foundations and Trends in Information Retrieval. Vol. 1, No. 3, S. 233–334.
  • Kenny, A. (1982). The Computation of Style. Oxford & New York: Pergamon Press.
  • Lüdeling, A. und Kytö, M. (year) (Eds.), Corpus Linguistics. An International Handbook. Berlin: Mouton de Gruyter.
  • Moretti, F. (2000). Conjectures on World Literature, in: New Left Review Vol. 1, S. 54-68.
  • Michel, J.-B., et al. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books, Science Vol. 331, S. 176-82.
  • Rommel, T. (2004). Literary Studies, in: S. Schreibman, R. Siemens u. J. Unsworth (Hg.), Companion to Digital Humanities, Oxford, URL: http://www.digitalhumanities.org/companion/
  • Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Comput. Surv., Vol. 34, No. 1, S. 1-47.
  • Steen, G. J., Dorst, A. G., Herrmann, J. B., Kaal, A. A., und Krennmayr, T. (2010). Metaphor in Usage. Cognitive Linguistics, Vol. 21, No. 4, S. 765-796.

Links zur Digitalen Textanalyse

Die eigenen Internetauftritte der Tools sind jeweils in den Artikeln verlinkt, hier findet man Informationen zu Korpora. Eine Auswahl von Links zum Thema digitale Textanalyse ist hier zu finden:

Impressum

Impressum

Mitarbeiterinnen und Mitarbeiter

 Bitte zitieren Sie das Wiki bei Bedarf auf die folgende Art und Weise:
 Herrmann, B. (Hg.),(2012). Literatur rechnen. Ein Wiki zur digitalen Textanalyse.(Digitale Ressource). http://litre.uni-goettingen.de/wiki/index.php/Hauptseite
 ... und einen einzelnen Artikel zum Beispiel so:
 Droste, K. (2012). AntConc [Version: Datum]. In: B. Herrmann (Hg.), Literatur rechnen. Ein Wiki zur digitalen Textanalyse. (Digitale Ressource). 
 http://litre.uni-goettingen.de/wiki/index.php/AntConc