Di-Lemmata

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche

Kurzbeschreibung des Tools

Die Software di-lemmata ist ein Programm zur computergestützten Analyse neuhochdeutscher literarischer Texte. Die Hauptbe-standteile sind lemmatisierte Wortlisten, auf dessen Grundlage Vergleiche zwischen Werken und Autoren sowie Erstellung von Konkordanzen möglich sind.

Die Idee zu di-lemmata entstand Anfang der 1990er Jahre an der TU Manchester von Dr. Achim Beutner und Norbert Schröder. Zunächst ging es im wesentlichen darum, computerlinguistische Erkenntnisse und Verfahren bei der literaturwissenschaftli-chen Untersuchung von Textkorpora einzusetzen. Im Laufe der Zeit entstand daraus ein vollwertiges Anwendungsprogramm, das im Prinzip von jedermann benutzbar ist, der sich für die maschinelle Analyse literarischer Texte interessiert und gängige Kenntnisse im Umgang mit Computern hat. Nachdem das Programm zunächst als ausschließlich PC-basierte Anwendung konzipiert worden war, steht es seit 2008 in einer mit modernen Web-Technologien erstellten Fassung im Internet und wird auch nur noch dort weiterentwickelt.

Allgemeine Voraussetzungen

Das Programm di-lemmata ist eine browserbasierte textanalytische Software, die für jeden kostenlos zugänglich ist. Eine Registrierung ist dabei nicht nötig. Die Benutzeroberfläche ist komplett in der Programmiersprache JavaScript geschrie-ben, die auf qooxdoo basiert, einem innovativen Entwicklungssystem für browserge-stützte Internet-Anwendungen. Zur Nutzung des Programms muss die Funktionalität des JavaScripts im Browser aktiviert sein.

Da das Programm webbasiert ist, muss der Browser gewissen Mindestanforderungen erfüllen. Um reibungslos mit der Software arbeiten zu können, werde folgende Browser-Versionen empfohlen:

  • Mozilla Firefox ab Version 1.5
  • Microsoft Internet Explorer ab Version 7
  • Opera ab Version 9
  • Apple Safari ab Version 3

Da die Bibliothek auf umfangreiche Datenbestände zugreift, die bei Bedarf über das Internet in den genutzten Browser geladen werden, wird ein DSL- oder eine andere schnelle Datenleitung im Netzt benötigt. Mit einen ISDN- oder analogen Anschluss kann eine problemlose Nutzung nicht garantiert werden.

Eine Funktion zur Daten- bzw. Ergebnisspeicherung ist im Programm nicht enthalten und muss durch eigene Möglichkeiten (z.B. mittels Screenshot) erfolgen. Möglich ist nur, einen ausgewählten Text als PDF herunterzuladen.


Detaillierte Beschreibung des Tools

Das Tool di-lemmata beinhaltet linguistisch erschlossene Texte, wodurch der gesam-te Wortschatz dem Benutzer in der Bibliothek über lemmatisierte Wortlisten zur Ver-fügung steht. Auf dieser Grundlage lassen sich vielfältige Untersuchungsansätze bei der Arbeit mit literarischen Werken realisieren, wobei ein breites Spektrum an Sor-tier- und Filter-Optionen zu Unterstützung bereit steht.

Das Programm besteht aus folgenden vier Grundpfeilern:

  • Die Bibliothek (die Textkorpora)
  • Die Wortlisten
  • Vergleiche
  • Konkordanzen

Die Bibliothek

Die Bibliothek besteht aus insgesamt 8363 neuhochdeutschen Texten gegliedert in Unterordnern und Ordnern zu 19 Autoren. Ein direkter Link führt zu einer Biographie des ausgewählten Autors. Sobald ein Text ausgewählt wird, erscheint dieser in einem dafür vorgesehenem Fenster (siehe Abb. 1: Die Bibliothek).
Abb.1: Die Bibliothek

Die Wortlisten

Um literaturwissenschaftliche relevante Fragestellungen zum poetischen Wortschatz eines Dichters formulieren und überprüfen zu können, bietet di-lemmata den gesamten Wortschatz der im Programm erfassten Texte in lemmatisierten Wortlisten an. Dadurch werden Untersuchungen wie z.B die Verteilungen und Häufigkeiten der Hauptwortarten, Wortschatzvergleiche zwischen einzelnen Autoren oder eine detaillierte Erörterungen von Kontexten erst möglich.

Der Inhalt der Wortliste ist abhängig von dem in der Bibliothek ausgewählten Ordner/Unterordner bzw. Text. Ist in der Bibliothek z.B. der Ordner Trakl markiert, wird in der Wortliste (links oben) der gesamte Wortbestand des bei di-lemmata vorhandenen Trakl-Korpus angezeigt (siehe Abb. 2: Wortliste des gesamtenTrakl-Korpus), bei der Auswahl eines Unterordners erscheint eine entsprechende reduzierte Wortliste aus den vorhandenen Texten. Eine Wortliste auf Grundlage eines einzelnen Textes ist ebenfalls möglich.
Abb.2: Wortliste des gesamten Trakl-Korpus

In der Wortliste werden zu jedem vorhandenen Lemmata/Lexem im ausgewählten Textkorpus (Im Beispiel die gesamten Werke Trakls) der Wortstamm, die Wortklasse und die Häufigkeit in dem ausgewählten Textkorpus ausgegeben. Die Sortierung nach diesen Kategorien ist möglich.

Im Textfenster (unterhalb der Wortliste) werden die Texte, die das in der Wortliste markierte Wort enthalten sowie die jeweilige Häufigkeit angezeigt. Sobald einer der Texte angeklickt wird, erscheint dieser vollständig im rechten großen Fenster und markiert das zu suchende Wort aus der Wortliste. Im Beispiel wird das Wort „sind“ im Gedicht „Romanze zur Nacht“ aufgrund der markierten Beiträge in der Wortliste und im Textfenster angezeigt. Unterhalb des Textfensters werden die gesamte Anzahl an Lemmata und Lexeme des ausgewählten Korpus angegeben (Trakls Werke enthalten 3.989 Lemmata und 23.358 Lexeme).

Eine Vielzahl an Filter-Optionen (Trichter-Symbol) gibt dem Benutzer die Möglichkeit, die Wortlisten nach seinen der Fragestellung gerichteten Wünschen zusammenzustellen. Neben der Anzeige von Stamm- oder Vollformen besteht die Möglichkeit die Anzeige auf Komposita und/oder zuvor markierten Einträgen zu beschränken. Mittels einer Wildcard können Listeneinträge mit einem gewissen Muster definiert werden und Mindesthäufigkeit eines Wortes kann ebenfalls festgelegt werden. Zusätzlich ist es möglich, die Anzeige auf gewisse Wortklassen zu beschränken.

In der Abb. 3: "Beschränkte Wortliste" wurde der Inhalt der Wortliste auf Stammformen beschränkt, die auf „*ung“ enden und eine Frequenz von mindestens 4 aufweisen. Im Hintergrund ist eine reduzierte Wortliste zu sehen, die alle Wörter enthält, die der Beschränkung gerecht werden.
Abb.3: Beschränkte Wortliste1
Soll nur die Wortklasse Adjektiv angezeigt werden, enthält die Wortliste nur noch den Eintrag „jung“, der insgesamt 24 mal in den Werken Trakls vorhanden ist (siehe Abb. 4: beschränkte Wortliste 2).
Abb.4: Beschränkte Wortliste2

Schon mit diesen vergleichsweise einfachen Mitteln kann ein lemmatisierter Wort-schatz einfach, systematisch und vollständig untersucht werden.

Vergleiche

Einer der Hauptbestandteile des Programms ist die Option, Textkorpora auf Wortschatzebene miteinander zu vergleichen. Der Benutzer hat entweder die Möglichkeiten den gesamten Textkorpus eines oder verschiedener Autoren zu vergleichen oder einzelne Werke eines Autors oder verschiedener Autoren gegenüberzustellen. Wie bei den anderen Bestandteilen auch kann der Benutzer die Durchführung durch verschiedene Konfigurationsoptionen seiner Fragestellung anpassen.

Die Vergleiche von Werken unterschiedlicher Autoren ist ein interessantes Thema. So können z.B. die Gemeinsamkeiten und die Unterschiede in den Werken Schillers als "Schüler" und Goethe als "Lehrer" verdeutlicht und analysiert werden. Jedoch sollte die Relevanz des Wortschatzvergleichs der Werke eines Autors nicht vernachlässigt werden. Der oft genannte Unterschied zwischen dem jungen und dem alten Stil Goethes (meist nur an wenig aussagekräftigen Zeilen bewiesen) könnte mit einem solchen Vergleich für neue Erkenntnisse sorgen und eine solide Belegbasis schaffen. Allerdings ist dies, aufgrund der noch nicht breitumfassten Textgrundlage, zurzeit nicht möglich.

Zur Veranschaulichung wird deshalb genauer auf die Frage eingegangen, ob sich die Thematik und der Stil Trakls in seinen Werken zu Lebzeiten leicht geändert hat. Aufgrund des ähnlichen Umfangs und der beiden einzigen zu Lebzeiten erschienen Texte, werden zum Vergleich die beiden Werke „Gedichte“ (1913) und „Sebastian im Traum“ (1915) herangezogen. Zunächst werden aus der Bibliothek die zu betrachtenden Ordner bzw. Texte (Gedichte und Sebastian im Traum von Trakl) in das rechte große Fenster der Funktion „Vergleich“ hineingezogen. Da in Trakls Werken die Adjektive eine große Rolle spielen, werden durch die Filterfunktion die Ansicht auf die zehn höchstfrequenten Wörter dieser Wortklasse beschränkt.
Abb. 5: Vergleich der zehn höchstfrequenten Adjektiven in Trakls Werken

In der Übersicht wird deutlich, dass die Adjektive „dunkel“, „purpurn“, „still“, „silbern“ und „grün“ in Trakls späterem Werk „Sebastian im Traum“ erheblich an Be-deutung gewinnen, Adjektive im unteren Bereich wie „alt“ oder „schön“ hingegen verlieren an Relevanz. Konstant bleiben Farbadjektive wie „schwarz“, „rot“ oder „blau“. Zur genaueren Erläuterung und weiteren Analyse von Trakls Werken siehe Kapitel 6: Beispielanalyse.

Konkordanzen

Ein weiterer Grundpfeiler von di-lemmata stellt die Konkordanz-Funktion dar. Mit diesem Werkzeug wird der Anwender in die Lage versetzt, ausgedehnte Kontextuntersuchungen zu einem oder mehreren Schlüsselwörtern durchzuführen. Die Ergebnisse werden in Form von KWIC-Indizes präsentiert, deren Inhalte mit Hilfe flexibler Ein- und Abgrenzungsmöglichkeiten an individuelle Fragestellungen angepasst werden können.

Für die Erstellung einer Konkordanz muss der Benutzer über die Wortliste zunächst ein Wort oder mehrere Wörter als Schlüsselwort festlegen, von welchem die Umgebung analysiert werden soll. Möglich wäre auch die Markierung sämtlicher Wortlisteneinträge, dies ist aufgrund der benötigten Rechenleistung jedoch nur bei einer relativ kurzen Wortliste zu empfehlen. Zusätzlich ist es möglich den Inhalt des linken und rechten Kontexts zu definieren, indem zum einen der Umfang der Wörter beschränkt wird und zum anderen Bedingungen an die Wörter gestellt werden (bestimmte Wortklassen oder -formen). Das Ergebnis nennt sich Konkordanz und gewährt den Benutzer einen Einblick in die Nutzung und der Kombination von Wörtern sowie die Gestaltung von Sätzen innerhalb des Werks.

Trakl bedient sich Adjektiven um die dunkle Stimmung und Farben des Herbstes in seinen Werken richtig herüberzubringen. Um die Funktion der Konkordanz anschaulich darzustellen, wird exemplarisch der linke Kontext des häufig genutzten Substantives „Nacht“ im Werk „Sebastian im Traum“ betrachtet. Dabei wird die Anzeige des linken Kontexts auf Adjektive beschränkt. Mithilfe der Funktion kann deutlich gemacht werden, welche Adjektive er mit dem Substantiv „Nacht“ verbindet (siehe Abb. 6: Konkordanz zum Substantiv "Nacht").
Abb. 6: Konkordanz zum Substantiv "Nacht"
Für eine weiterführende Analyse siehe Kapitel 6: Beispielanalyse.


'Daten-Einspeisung

Die Dateneinspeisung erfolgt durch die Entwickler von di-lemmata. Bevor die Daten veröffentlicht werden, werden die Texte mittels eines separaten Programms (Korpus-Manager) sorgfältig editiert, damit die Wortlisten, die während dieses Prozesses erzeugt werden, möglichst fehler- und widerspruchsfrei sind. Die Software beinhaltet ausschließlich Texte der neuhochdeutschen Literatur (18. – 20. Jh.). Aufgrund des Urheberrechtes können nur Werke von Autoren eingespeist werden, die seit 70 Jahren tot sind. Deswegen sind die Entwickler gezwungen, oft auf gemeinfreie Werke zurück zugreifen. Die Dateneinspeisung der Texte ist von Benutzern selbst nicht möglich. Sie können jedoch Wünsche gegenüber den Entwicklern äußern. Sofern die Textwünsche den Zielen und Intentionen von di-lemmata nicht widersprechen und solange sich dadurch keine Urheberrechtsverletzungen ergeben, werden diese in das Programm eingespeist.

Werke folgender Autoren sind für die Nutzer zurzeit zugänglich:

  • Gottfried August Bürger (Gedichte)

  • Johann Wolfgang von Goethe (Gedichte letzter Hand; West-östlicher Divan)

  • Friedrich von Schiller (Gedichte)

  • Friedrich Hölderlin (Gedichte)

  • Ludwig Uhland (Gedichte)

  • Joseph von Eichendorff (Gedichte und Epen)

  • August Graf von Platen (Gedichte)

  • Annette von Droste-Hülshoff (Gedichte)

  • Heinrich Heine (Gedichte)

  • Nikolaus Lenau (sämtliche Gedichte)

  • Eduard Mörike (sämtliche Gedichte)

  • Friedrich Hebbel (sämtliche Gedichte)

  • Gottfried Keller (Gedichte)

  • Conrad Ferdinand Meyer (sämtliche Gedichte)

  • Hugo von Hofmannsthal (Gedichte)

  • Rainer Maria Rilke (Gedichte)

  • Georg Trakl (sämtliche Werke)

  • Georg Heym (sämtliche Werke)

  • Alfred Lichtenstein (sämtliche Werke)

In einer neueren Version, die demnächst veröffentlicht wird, finden sich zusätzlich noch weitere Werke folgender Autoren:

  • Johann Peter Uz (Gedichte)
  • Gotthold Ephraim Lessing (Gedichte und gereimte Fabeln)
  • Christian Friedrich Schubart (Gedichte)
  • Ludwig Christoph Heinrich Hölty (Gedichte)
  • August Wilhelm Schlegel (Gedichte)
  • Ludwig Tieck (Gedichte)
  • Achim von Arnim (Gedichte)
  • Adelbert von Chamisso (Gedichte)
  • Friedrich Rückert (Gedichte)
  • Ernst Schulze (Gedichte)
  • Gustav Schwab (Gedichte)
  • Theodor Storm (Gedichte)
  • Paul Heyse (Gedichte)
  • Clara Müller-Jahnke (Gedichte)
  • Max Dauthendey (Gedichte)
  • Christian Morgenstern (Gedichte)
  • Theodor Däubler (Das Nordlicht; Attische Sonette)
  • Ernst Stadler (Gedichte)
  • Paul Boldt (Gedichte)
  • Ernst Wilhelm Lotz (Gedichte)
  • Klabund (Gedichte)

Die Daten (Texte und Wortlisten) sind in einer relationalen Datenbank (MySQL) auf dem Webserver gespeichert und werden mithilfe von SQL bei Bedarf per AJAX abgerufen. Die meisten Datenbankabfragen werden durch die Interaktion des Benutzers mit dem Programm gesteuert und deshalb dynamisch erzeugt. So werden bspw. die verschiedenen Optionen im Wortlistenfilter nach Anklicken von "OK" vom (lokal ausgeführten) Programm gebündelt an den Webserver übermittelt, der anhand dieser Informationen einen SQL-Befehl erstellt, mit dessen Hilfe die gewünschten Einträge aus der Datenbank selektiert und an das im Browser laufende Programm zurückübermittelt werden. Ähnliches gilt - in einfacherer Weise - auch für die Texte.