Google Ngram Viewer

Aus Literatur Rechnen - Neue Wege der Textanalyse
Version vom 18. Oktober 2017, 16:34 Uhr von Berenike Herrmann (Diskussion | Beiträge)

(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche
Unser LitRe-Wiki ist seit 2012 nicht eingreifend überarbeitet worden. Es bildet also den damaligen Stand ab. Um Weiterentwicklungen der digitalen Textanalyse abzubilden, sollen nun die Artikel peu à peu überarbeitet werden, und weitere Artikel hinzukommen.

Interesse? Haben Sie Lust, einen Artikel zu überarbeiten oder neu zu verfassen? Schreiben Sie uns! Auch Kommentare, Kritik oder Fragen sind willkommen: mailto:bherrma1@gwdg.de


Der Google Ngram Viewer untersucht mittels Data Mining, wie häufig in gedruckten Publikationen der letzten fünf Jahrhunderte ausgesuchte Wortfolgen, sogenannte n-grams, gebraucht werden. Der Benutzer kann n-grams nach Belieben eingeben und ihre Gebrauchsfrequenz auch miteinander vergleichen. Das Programm wird verwendet, um anhand von Sprachgebrauchsfrequenzen Überlegungen über soziale, kulturelle und technische Veränderungen empirisch zu prüfen.

Die Darstellung erfolgt visuell eingänglich und benutzerfreundlich in Graphen. Das Tool produziert schnell und mit wenig Aufwand anschauliche Resultate; es ist daher auch bei Benutzern beliebt, die ohne Einarbeitungszeit ihre Ideen an riesigen Datenbeständen erproben möchten.

Der Google Ngram Viewer stützt sich auf Textkorpora, die im Rahmen des Projektes Google Books entstanden. Sie werden in den Sprachen Deutsch, Englisch, Französisch, Hebräisch, Russisch und Spanisch angeboten und umfassen den Inhalt von 5,2 Millionen Büchern, die in den Jahren 1500-2008 gedruckt wurden.

Der Google Ngram Viewer wurde von den Angehörigen der Harvard University Jean-Baptiste Michel und Erez Liebermann Aiden entwickelt und Ende 2010 zuerst veröffentlicht. Das Projekt wurde unterstützt von der Harvard University, dem U.S. Department of Health & Human Services, Google und weiteren Institutionen.

Allgemeines

  • Technische Voraussetzungen: Der Google Ngram Viewer ist mit jedem üblichen Internetbrowser zu benutzen. Die aufwendigen Rechenvorgänge werden von Googles Servern geleistet und belasten den Computer des Benutzers nicht.
  • Aktuelle Version: Die hier besprochene Version wurde 2010 veröffentlicht und verwendet Textkorpora, die im Juli 2009 generiert wurden. Die verschiedenen Korpora sind mit Versionsnummern gekennzeichnet, das Tool Google Ngram Viewer ist es momentan nicht.
  • Neben der Benutzeroberfläche Google Ngram Viewer werden auch die Datasets angeboten, auf die das Tool sich stützt. Die zur Verfügung gestellten Datasets sind nur mit Texteditoren zu öffnen, die mit großen Dateien umgehen können. [FN Programmer's Notepad 2.3 http://www.pnotepad.org/]

Detaillierte Beschreibung des Tools

Mit dem Tool können große Textkorpora auf die Häufigkeit beliebiger Wortfolgen untersucht werden. Diese erscheinen hierbei als n-gram. Innerhalb eines n-grams werden die einzelnen Wortformen durch Leerzeichen getrennt. Z. B. wäre die Zeichenkette „Dorado“ ein 1-gram, „El Dorado“ ein 2-gram und „of El Dorado“ ein 3-gram. Die Häufigkeit eines n-grams wird für eine ausgewählte Zeitspanne von Jahr zu Jahr angegeben. Die Darstellung erfolgt nicht mit exakten Zahlenwerten, sondern als Graph in einem Koordinatensystem. Darin bezeichnet die horizontale Achse die Jahreszahlen, die vertikale Achse die Häufigkeit. Diese gibt an, wieviel Prozent des gewählten Korpus aus dem gewählten n-gram besteht. Gezählt wird dabei nicht die Anzahl der einzelnen Zeichen im Korpus, sondern die Anzahl von Wortformen. Besitzt ein n-gram in einem Jahr y die Häufigkeit x Prozent, stellt es also x Prozent der gezählten Wortformen. In der Liste der registrierten Wortformen sind nur Lemmata verzeichnet, die in mindestens 40 Büchern vorkommen. Auf diese Weise konnte die Anzahl von Wortformen, die durch Schreibfehler zustande gekommen ist, reduziert werden und mit einigen Ausnahmen wie „Kreig“ statt „Krieg“ sind in erster Linie vor allem Lemmata verzeichnet, die auch zum Wortschatz einer Sprache gehören oder gehört haben.

Verschiedene n-grams können auf einmal eingegeben werden, um die Häufigkeit ihres Vorkommens miteinander vergleichen zu können.

Es stehen Korpora verschiedener Sprachen und Genres zur Auswahl. An Sprachen werden Deutsch, Englisch, Französisch, Hebräisch, Russisch und Spanisch angeboten. Für die englische Sprache werden die Korpora unterteilt in amerikanisches und britisches Englisch. Auch gibt es für das Englische einen Korpus nur aus fiktionalen Texten.

Die Zeitspanne kann beliebig zwischen den Jahren 1500 bis 2008 gewählt werden, wobei die Darstellung umso genauer wird, je kürzer der untersuchte Zeitraum ist.

Arbeitsschritte

Die Benutzung des Google Ngram Viewer ist sehr simpel. Der Benutzer trägt das n-gram, dessen Vorkommensfrequenz er untersuchen möchte, in die Eingabemaske ein. Dabei können durch Kommata getrennt verschiedene n-grams auf einmal abgefragt werden. Das Tool zeigt als Ergebnis für jedes eingegebene n-gram einen eigenen Graphen in einem gemeinsamen Koordinatensystem. Die Auflösung der y-Achse, die die Frequenz eines n-grams angibt, richtet sich dabei dem n-gram, das am häufigsten vorkommt.

Mögliche Analysen

Culturomics

Zusammen mit dem Google Ngram Viewer veröffentlichten die Entwickler einen Artikel im Science Magazine, in dem sie Anwendungsmöglichkeiten des Programms vorstellen. Als mögliche Forschungsgebiete werden u. a. Lexikographie, kollektives Gedächtnis, sprachlicher Wandel und Wirkung von Zensur genannt. [FN Michel u. a.]

Jeder Analyse liegt das gleiche Verfahren zugrunde, nämlich wird die Frequenz des Erscheinens ausgewählte n-grams gezählt. Für diese Art der Analyse großer Mengen von Büchern führten die Entwickler den Begriff Culturomics ein, der im wissenschaftlichen Diskurs einige Resonanz fand. [FN Culturomics auf Wikipedia En & culturomics.org]

Trend vs. Peak

Bei den möglichen Analysen scheint es sinnvoll zu unterscheiden, ob in der Häufigkeit von n-grams nach Höhepunkten oder nach Trends gesucht werden soll. Die Option Smoothing ermöglicht die ausgegebenen Graphen zu glätten, wobei der Grad der Glättung zwischen 0 und 50 frei gewählt werden kann. Die Glättung geschieht, indem für ein Jahr x ein Frequenzwert y mit einem smoothing-Grad s angegeben wird. Die für das Jahr x angezeigte Frequenz y ist dabei ein Mittelwert der Jahre x-s bis x+s. Zum Beispiel würde also bei einem smoothing-Grad s=3 für das Jahr 1990 eine Häufigkeit y angegeben, die zusammengesetzt ist aus der Häufigkeit der Jahre 1987-1993.

Das smoothing erlaubt also, Trends deutlicher sichtbar zu machen, indem die Graphen geglättet werden. Dies kann allerdings dazu führen, dass der Höhepunkt eines Graphen für ein Jahr angezeigt wird, in dem er den Zahlen nach nicht liegt. Soll möglichst genau angezeigt werden, wie häufig in einem Jahr ein bestimmtes n-gram gebraucht wird, empfiehlt es sich, auf smoothing zu verzichten. Dies bietet sich für Analysen an, in denen die Wirkung politischer Umbrüche auf die Verwendung von Sprache gezeigt werden soll.

Benutzerfreundlichkeit und Transparenz

Eine Suchanfrage an den Google Ngram Viewer nimmt sehr wenig Zeit und Mühe in Anspruch, was das Programm für breite Benutzerschichten interessant macht. Anders gesagt ist die Latenz zwischen Beginn einer Eingabe und der Verfügbarkeit des Ergebnisses sehr gering, der Benutzer wird sofort für seine Eingabe belohnt.

Die Transparenz ist schwieriger zu bewerten. Aufgrund der Größe der Textkorpora ist es kaum möglich, ihre Qualität und Angemessenheit für die gestellte Frage zu bewerten. Allerdings bietet der Google Ngram Viewer die Möglichkeit zu verfolgen, in welchen Publikationen ein gesuchtes n-gram vorkommt. Gibt man etwa die Wortform „choc“ ein zeigt der Ngram Viewer für den deutschen Korpus ein sehr hohes Vorkommen für das Jahr 1943 an. Der Link zu den Publikationen dieses Jahres zeigt jedoch, dass zumindest die ersten der angegebenen 1.070 Ergebnisse aus französischsprachigen Texten stammen, die als deutsche annotiert sind. Die falsche Annotation von Texten verursacht also eine Unschärfe in der Darstellung und verfälscht die Ergebnisse.

Beispielanwendungen

Abb. 1: Nach ihrem Verstreichen allmählich vergessene Jahre
Abb. 2: Nach ihrem Ablauf häufiger erwähnte Jahre

Wendepunkte der Geschichte?

Ich gehe für dieses Beispiel davon aus, dass Zahlen von 1900 bis 2000 im deutschen Textkorpus besonders häufig als Jahreszahlen gebraucht werden. Betrachtet man geschichtliche Publikationen zur deutschen Geschichte, scheint es, als würden bestimmte Jahre häufiger als andere als Wendepunkte in der Geschichte wahrgenommen, etwa die Jahre 1914, 1918, 1933 und 1945. Gibt man diese Jahreszahlen in den Ngram Viewer ein, bestätigt sich, dass diese Zahlen mit Graphen einer anderen Art bezeichnet werden als etwa die Jahre 1911, 1961, 1975 und 1992. Die Graphen der letztgenannten Zahlen steigen bis zum Erreichen der jeweiligen Jahreszahl steil an, um danach wieder steil abzufallen. Das Jahr wird mit seinem Verstreichen allmählich wieder vergessen. Anders verhält es sich mit den Jahren 1914, 1918, 1933 und 1945. Das Jahr 1945 wird etwa bis zum Jahr 1998 sehr häufig genannt. Es nimmt in den 1990er Jahren mehr Platz im Diskurs ein als um 1945. Dies mag illustrieren, dass das Jahr 1945 – das letzte Jahr der nationalsozialistischen Herrschaft – im deutschsprachigen Gebiet als zeitliche Trennlinie verschiedener gesellschaftlicher Systeme verstanden wird. Für den Zeitraum von 1992-1997 zählt Google Books 228.000 Vorkommen der Wortform „1945“, eine Menge, die ein einzelner Gelehrter nicht mehr zu zählen vermocht hätte.

Es bietet sich an, für diese Fragestellung die Darstellungsoption smoothing mit einem Wert von z. B. 3 zu verwenden, da es um die Darstellung von Trends geht.

Abb. 3: Wechselhafte Gebrauchsfrequenz des Begriffs "Kornkammer"

Völkische Ideologie. Das kurzlebige Konzept der „Kornkammer“

Für das Jahr 1942 wird ein sehr hohes Aufkommen des Begriffs „Kornkammer“ verzeichnet. „Kornkammer“ meinte im deutschen Diskurs jener Zeit Regionen, die sich für Getreideanbau besonders eignen. Völkische Ideologen forderten, solche Gebiete zu erobern, um ein angestrebtes Wachstum der deutschen Bevölkerung zu nähren. Im Fokus standen dabei Gebiete Osteuropas, besonders im Süden der Ukraine, die Gegenstand militaristischer Expansionsbestrebungen waren und unter den Feldzügen der deutschen Wehrmacht leiden mussten. Der Graph zur Wortform „Kornkammer“ steigt ab 1938 steil an, fällt nach 1942 steil ab und bleibt danach tief. Das Hoch von 1942 fällt zeitlich zusammen mit der größten Ausdehnung des Deutschen Reichs im Zweiten Weltkrieg. Diese Korrelation legt die Vermutung nah, dass die Expansion des Deutschen Reiches Phantasien nährte, Gebiete östlich der alten Grenzen als neuen Siedlungsraum zu erobern. Als sich 1943 das Scheitern der Feldzüge Richtung Asien abzeichnete, verlor das Konzept rasch an Bedeutung.

Das genannte Hoch der Wortform „Kornkammer“ ist am deutlichsten zu beobachten, wenn auf die Darstellungsoption smoothing verzichtet, bzw. ihr Wert auf 0 gesetzt wird. Im Vergleich zur vorherigen Fragestellung geht es nicht um einen Trend, sondern um einen Höhepunkt.

Fazit und Diskussion

Der Google Ngram Viewer ist ein Tool, mit dem sich rasch auf empirische Weise umfangreiche Hypothesen zum gesellschaftlichen Denken vergangener Zeiten prüfen lassen. Die hier besprochene Version ist immer noch die erste und leidet an einigen Mängeln, die in Zukunft behoben werden könnten. Der größte Mangel ist die zuweilen ungenaue Annotation der Texte in den Korpora, die Ergebnisse verzerren kann. Einige technische Mängel von Google Books wurden in den letzten Jahren bereits behoben, etwa funktioniert OCR für Texte in Frakturschrift inzwischen fast perfekt. Diese Verbesserungen sind jedoch anscheinend noch nicht in den Textkorpora des Google Ngram Viewer berücksichtigt. So findet man im deutschen Korpus zu Beginn um das Jahr 1800 hohe Vorkommen der Zeichenkette „wahrfcheinlich“, wo die Wortform „wahrscheinlich“ stehen sollte.

Bei der Entwicklung des Google Ngram Viewer wurde nicht nur auf technische Funktionalität, sondern auch auf Stil Wert gelegt. Das Tool lädt zu einem spielerischen Umgang mit seinen Möglichkeiten ein und erfreut sich dadurch eines Publikums, das bei weitem nicht nur aus Philologen besteht. Es ist eines der ganz wenigen philologischen Computerprogramme, das sich breiter Aufmerksamkeit erfreut. Hierin besteht wohl einer der größten Unterschiede zu den anderen in diesem Wiki vorgestellten Tools.

Zukunftspläne für den Google Ngram Viewer

Es ist nicht bekannt, ob dieses spezielle Tool weiterentwickelt werden wird. In der wissenschaftlichen Öffentlichkeit wurde jedoch konstruktive Kritik am Google Ngram Viewer geübt, die Hinweise darauf gibt, wie das Konzept des Tools, die Frequenzanalyse großer Korpora, weiterentwickelt werden könnte. Es wurde etwa formuliert, die eingescannten Bücher würden durch die lange für ihre Publikation benötigte Zeit dem Zeitgeist hinterherhinken. Daher wurde vorgeschlagen, neue Textkorpora aus periodisch erscheinenden Zeitschriften mit kürzeren Editionszeitspannen zu erstellen. [FN Schwartz]

In seinem Aufsatz „Culturomics 2.0“ erprobt Kalev Leetaru ein ähnliches Verfahren an Nachrichten aus Printmedien und dem Internet. Er präsentiert, wie durch das Data Mining von Millionen Nachrichtenartikeln Zusammenhänge erkannt werden können zwischen politischen Ereignissen wie etwa dem Sturz von Regierungen oder dem Ausbruch von Kriegen und dem Ton bzw. der Stimmung, in der aus ausgewählten Regionen berichtet wird.

Wie aus dem Aufsatz deutlich wird, hat die quantitative Analyse großer Datenmengen in wenigen Jahren einen festen Platz in Marktforschung erlangt und kann auch für politische Nachrichtendienste wertvolle Erkenntnisse liefern. [FN Leetaru]

Literatur

bitte ergänzen --Berenike Herrmann (Diskussion) 15:04, 16. Aug. 2012 (CEST)

Ressourcen