Di-Lemmata: Unterschied zwischen den Versionen

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche
Zeile 29: Zeile 29:
  
 
=== '''Die Bibliothek''' ===
 
=== '''Die Bibliothek''' ===
Die Bibliothek besteht aus insgesamt 8363 neuhochdeutschen Texten gegliedert in Unterordnern und Ordnern zu 19 Autoren. Ein direkter Link führt zu einer Biographie des ausgewählten Autors. Sobald ein Text ausgewählt wird, erscheint dieser in einem dafür vorgesehenem Fenster (siehe Abb. 1: Die Bibliothek).  
+
Die Bibliothek besteht aus insgesamt 8363 neuhochdeutschen Texten gegliedert in Unterordnern und Ordnern zu 19 Autoren. Ein direkter Link führt zu einer Biographie des ausgewählten Autors. Sobald ein Text ausgewählt wird, erscheint dieser in einem dafür vorgesehenem Fenster (siehe Abb. 1: Die Bibliothek). [[Datei:Bibliothek1.png|200px|thumb|left|Abb.1: Die Bibliothek]]
[[Datei:Bibliothek1.png|200px|thumb|left|Abb.1: Die Bibliothek]]
+
  
 
=== '''Die Wortlisten''' ===
 
=== '''Die Wortlisten''' ===
 
Um literaturwissenschaftliche relevante Fragestellungen zum poetischen Wortschatz eines Dichters formulieren und überprüfen zu können, bietet ''di-lemmata'' den gesamten Wortschatz der im Programm erfassten Texte in lemmatisierten Wortlisten an. Dadurch werden Untersuchungen wie z.B die Verteilungen und Häufigkeiten der Hauptwortarten, Wortschatzvergleiche zwischen einzelnen Autoren oder eine detaillierte Erörterungen von Kontexten erst möglich.  
 
Um literaturwissenschaftliche relevante Fragestellungen zum poetischen Wortschatz eines Dichters formulieren und überprüfen zu können, bietet ''di-lemmata'' den gesamten Wortschatz der im Programm erfassten Texte in lemmatisierten Wortlisten an. Dadurch werden Untersuchungen wie z.B die Verteilungen und Häufigkeiten der Hauptwortarten, Wortschatzvergleiche zwischen einzelnen Autoren oder eine detaillierte Erörterungen von Kontexten erst möglich.  
  
Der Inhalt der Wortliste ist abhängig von dem in der Bibliothek ausgewählten Ordner/Unterordner bzw. Text. Ist in der Bibliothek z.B. der Ordner Trakl markiert, wird in der Wortliste (links oben) der gesamte Wortbestand des bei ''di-lemmata'' vorhandenen Trakl-Korpus angezeigt (siehe Abb. 2: Wortliste des gesamtenTrakl-Korpus), bei der Auswahl eines Unterordners erscheint eine entsprechende reduzierte Wortliste aus den vorhandenen Texten. Eine Wortliste auf Grundlage eines einzelnen Textes ist ebenfalls möglich.
+
Der Inhalt der Wortliste ist abhängig von dem in der Bibliothek ausgewählten Ordner/Unterordner bzw. Text. Ist in der Bibliothek z.B. der Ordner Trakl markiert, wird in der Wortliste (links oben) der gesamte Wortbestand des bei ''di-lemmata'' vorhandenen Trakl-Korpus angezeigt (siehe Abb. 2: Wortliste des gesamtenTrakl-Korpus), bei der Auswahl eines Unterordners erscheint eine entsprechende reduzierte Wortliste aus den vorhandenen Texten. Eine Wortliste auf Grundlage eines einzelnen Textes ist ebenfalls möglich. [[Datei:Wortliste1.png|200px|thumb|left|Abb.2: Wortliste des gesamten Trakl-Korpus]]
[[Datei:Wortliste1.png|200px|thumb|left|Abb.2: Wortliste des gesamten Trakl-Korpus]]
+
  
 
In der Wortliste werden zu jedem vorhandenen Lemmata/Lexem im ausgewählten Textkorpus (Im Beispiel die gesamten Werke Trakls) der Wortstamm, die Wortklasse und die Häufigkeit in dem ausgewählten Textkorpus ausgegeben. Die Sortierung nach diesen Kategorien ist möglich.  
 
In der Wortliste werden zu jedem vorhandenen Lemmata/Lexem im ausgewählten Textkorpus (Im Beispiel die gesamten Werke Trakls) der Wortstamm, die Wortklasse und die Häufigkeit in dem ausgewählten Textkorpus ausgegeben. Die Sortierung nach diesen Kategorien ist möglich.  
Zeile 44: Zeile 42:
 
Eine Vielzahl an Filter-Optionen (Trichter-Symbol) gibt dem Benutzer die Möglichkeit, die Wortlisten nach seinen der Fragestellung gerichteten Wünschen zusammenzustellen. Neben der Anzeige von Stamm- oder Vollformen besteht die Möglichkeit die Anzeige auf Komposita und/oder zuvor markierten Einträgen zu beschränken. Mittels einer Wildcard können Listeneinträge mit einem gewissen Muster definiert werden und Mindesthäufigkeit eines Wortes kann ebenfalls festgelegt werden. Zusätzlich ist es möglich, die Anzeige auf gewisse Wortklassen zu beschränken.  
 
Eine Vielzahl an Filter-Optionen (Trichter-Symbol) gibt dem Benutzer die Möglichkeit, die Wortlisten nach seinen der Fragestellung gerichteten Wünschen zusammenzustellen. Neben der Anzeige von Stamm- oder Vollformen besteht die Möglichkeit die Anzeige auf Komposita und/oder zuvor markierten Einträgen zu beschränken. Mittels einer Wildcard können Listeneinträge mit einem gewissen Muster definiert werden und Mindesthäufigkeit eines Wortes kann ebenfalls festgelegt werden. Zusätzlich ist es möglich, die Anzeige auf gewisse Wortklassen zu beschränken.  
  
In der Abb. 3: "Beschränkte Wortliste" wurde der Inhalt der Wortliste auf Stammformen beschränkt, die auf „*ung“ enden und eine Frequenz von mindestens 4 aufweisen. Im Hintergrund ist eine reduzierte Wortliste zu sehen, die alle Wörter enthält, die der Beschränkung gerecht werden.
+
In der Abb. 3: "Beschränkte Wortliste" wurde der Inhalt der Wortliste auf Stammformen beschränkt, die auf „*ung“ enden und eine Frequenz von mindestens 4 aufweisen. Im Hintergrund ist eine reduzierte Wortliste zu sehen, die alle Wörter enthält, die der Beschränkung gerecht werden. [[Datei:Wortliste2.png|200px|thumb|left|Abb.3: Beschränkte Wortliste1]] Soll nur die Wortklasse Adjektiv angezeigt werden, enthält die Wortliste nur noch den Eintrag „jung“, der insgesamt 24 mal in den Werken Trakls vorhanden ist. [[Datei:Wortliste3.png|200px|thumb|left|Abb.4: Beschränkte Wortliste2]]

Version vom 21. Februar 2012, 15:00 Uhr

Kurzbeschreibung des Tools

Die Software di-lemmata ist ein Programm zur computergestützten Analyse neuhochdeutscher literarischer Texte. Die Hauptbe-standteile sind lemmatisierte Wortlisten, auf dessen Grundlage Vergleiche zwischen Werken und Autoren sowie Erstellung von Konkordanzen möglich sind.

Die Idee zu di-lemmata entstand Anfang der 1990er Jahre an der TU Manchester von Dr. Achim Beutner und Norbert Schröder. Zunächst ging es im wesentlichen darum, computerlinguistische Erkenntnisse und Verfahren bei der literaturwissenschaftli-chen Untersuchung von Textkorpora einzusetzen. Im Laufe der Zeit entstand daraus ein vollwertiges Anwendungsprogramm, das im Prinzip von jedermann benutzbar ist, der sich für die maschinelle Analyse literarischer Texte interessiert und gängige Kenntnisse im Umgang mit Computern hat. Nachdem das Programm zunächst als ausschließlich PC-basierte Anwendung konzipiert worden war, steht es seit 2008 in einer mit modernen Web-Technologien erstellten Fassung im Internet und wird auch nur noch dort weiterentwickelt.

Allgemeine Voraussetzungen

Das Programm di-lemmata ist eine browserbasierte textanalytische Software, die für jeden kostenlos zugänglich ist. Eine Registrierung ist dabei nicht nötig. Die Benutzeroberfläche ist komplett in der Programmiersprache JavaScript geschrie-ben, die auf qooxdoo basiert, einem innovativen Entwicklungssystem für browserge-stützte Internet-Anwendungen. Zur Nutzung des Programms muss die Funktionalität des JavaScripts im Browser aktiviert sein.

Da das Programm webbasiert ist, muss der Browser gewissen Mindestanforderungen erfüllen. Um reibungslos mit der Software arbeiten zu können, werde folgende Browser-Versionen empfohlen:

  • Mozilla Firefox ab Version 1.5
  • Microsoft Internet Explorer ab Version 7
  • Opera ab Version 9
  • Apple Safari ab Version 3

Da die Bibliothek auf umfangreiche Datenbestände zugreift, die bei Bedarf über das Internet in den genutzten Browser geladen werden, wird ein DSL- oder eine andere schnelle Datenleitung im Netzt benötigt. Mit einen ISDN- oder analogen Anschluss kann eine problemlose Nutzung nicht garantiert werden.

Eine Funktion zur Daten- bzw. Ergebnisspeicherung ist im Programm nicht enthalten und muss durch eigene Möglichkeiten (z.B. mittels Screenshot) erfolgen. Möglich ist nur, einen ausgewählten Text als PDF herunterzuladen.


Detaillierte Beschreibung des Tools

Das Tool di-lemmata beinhaltet linguistisch erschlossene Texte, wodurch der gesam-te Wortschatz dem Benutzer in der Bibliothek über lemmatisierte Wortlisten zur Ver-fügung steht. Auf dieser Grundlage lassen sich vielfältige Untersuchungsansätze bei der Arbeit mit literarischen Werken realisieren, wobei ein breites Spektrum an Sor-tier- und Filter-Optionen zu Unterstützung bereit steht.

Das Programm besteht aus folgenden vier Grundpfeilern:

  • Die Bibliothek (die Textkorpora)
  • Die Wortlisten
  • Vergleiche
  • Konkordanzen

Die Bibliothek

Die Bibliothek besteht aus insgesamt 8363 neuhochdeutschen Texten gegliedert in Unterordnern und Ordnern zu 19 Autoren. Ein direkter Link führt zu einer Biographie des ausgewählten Autors. Sobald ein Text ausgewählt wird, erscheint dieser in einem dafür vorgesehenem Fenster (siehe Abb. 1: Die Bibliothek).
Abb.1: Die Bibliothek

Die Wortlisten

Um literaturwissenschaftliche relevante Fragestellungen zum poetischen Wortschatz eines Dichters formulieren und überprüfen zu können, bietet di-lemmata den gesamten Wortschatz der im Programm erfassten Texte in lemmatisierten Wortlisten an. Dadurch werden Untersuchungen wie z.B die Verteilungen und Häufigkeiten der Hauptwortarten, Wortschatzvergleiche zwischen einzelnen Autoren oder eine detaillierte Erörterungen von Kontexten erst möglich.

Der Inhalt der Wortliste ist abhängig von dem in der Bibliothek ausgewählten Ordner/Unterordner bzw. Text. Ist in der Bibliothek z.B. der Ordner Trakl markiert, wird in der Wortliste (links oben) der gesamte Wortbestand des bei di-lemmata vorhandenen Trakl-Korpus angezeigt (siehe Abb. 2: Wortliste des gesamtenTrakl-Korpus), bei der Auswahl eines Unterordners erscheint eine entsprechende reduzierte Wortliste aus den vorhandenen Texten. Eine Wortliste auf Grundlage eines einzelnen Textes ist ebenfalls möglich.
Abb.2: Wortliste des gesamten Trakl-Korpus

In der Wortliste werden zu jedem vorhandenen Lemmata/Lexem im ausgewählten Textkorpus (Im Beispiel die gesamten Werke Trakls) der Wortstamm, die Wortklasse und die Häufigkeit in dem ausgewählten Textkorpus ausgegeben. Die Sortierung nach diesen Kategorien ist möglich.

Im Textfenster (unterhalb der Wortliste) werden die Texte, die das in der Wortliste markierte Wort enthalten sowie die jeweilige Häufigkeit angezeigt. Sobald einer der Texte angeklickt wird, erscheint dieser vollständig im rechten großen Fenster und markiert das zu suchende Wort aus der Wortliste. Im Beispiel wird das Wort „sind“ im Gedicht „Romanze zur Nacht“ aufgrund der markierten Beiträge in der Wortliste und im Textfenster angezeigt. Unterhalb des Textfensters werden die gesamte Anzahl an Lemmata und Lexeme des ausgewählten Korpus angegeben (Trakls Werke enthalten 3.989 Lemmata und 23.358 Lexeme).

Eine Vielzahl an Filter-Optionen (Trichter-Symbol) gibt dem Benutzer die Möglichkeit, die Wortlisten nach seinen der Fragestellung gerichteten Wünschen zusammenzustellen. Neben der Anzeige von Stamm- oder Vollformen besteht die Möglichkeit die Anzeige auf Komposita und/oder zuvor markierten Einträgen zu beschränken. Mittels einer Wildcard können Listeneinträge mit einem gewissen Muster definiert werden und Mindesthäufigkeit eines Wortes kann ebenfalls festgelegt werden. Zusätzlich ist es möglich, die Anzeige auf gewisse Wortklassen zu beschränken.

In der Abb. 3: "Beschränkte Wortliste" wurde der Inhalt der Wortliste auf Stammformen beschränkt, die auf „*ung“ enden und eine Frequenz von mindestens 4 aufweisen. Im Hintergrund ist eine reduzierte Wortliste zu sehen, die alle Wörter enthält, die der Beschränkung gerecht werden.
Abb.3: Beschränkte Wortliste1
Soll nur die Wortklasse Adjektiv angezeigt werden, enthält die Wortliste nur noch den Eintrag „jung“, der insgesamt 24 mal in den Werken Trakls vorhanden ist.
Abb.4: Beschränkte Wortliste2