CATMA

Aus Literatur Rechnen - Neue Wege der Textanalyse
Version vom 11. November 2017, 19:41 Uhr von Martin Schulz (Diskussion | Beiträge)

(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche
Unser LitRe-Wiki ist seit 2012 nicht eingreifend überarbeitet worden. Es bildet also den damaligen Stand ab. Um Weiterentwicklungen der digitalen Textanalyse abzubilden, sollen nun die Artikel peu à peu überarbeitet werden, und weitere Artikel hinzukommen.

Interesse? Haben Sie Lust, einen Artikel zu überarbeiten oder neu zu verfassen? Schreiben Sie uns! Auch Kommentare, Kritik oder Fragen sind willkommen: berenike.herrmann at unibas.ch

CATMA (Computer Assisted Textual Markup & Analysis) ist ein Tool, mit dem Texte digital markiert (annotiert) und analysiert werden können. Die hochleistungsfähige Textanalysesoftware (mittlerweile Version 5.0) ist ein praktisches und intuitives Werkzeug für Wissenschaftler, mit dem die Benutzer (als Einzelanwender oder auch in Echtzeit im Team) den hermeneutischen, "undogmatischen" und den digitalen, taxonomischen Ansatz miteinander kombinieren können. Unter dem Link http://catma.de/ kann CATMA im Browser gestartet werden.


Die Software wird von einem Entwicklerteam an der Universität Hamburg laufend gewartet und weiterentwickelt. Der Projektleiter Jan Christoph Meister beschreibt das Arbeiten mit CATMA:


CATMA's workflow tries to emulate that of a traditional literary scholar who reads a text, makes some annotations, compares and analyses the notes and then uses these results to interpret the text. [...] CATMA must also pay tribute to one of the key methodological tenets of literary scholarship: the principal open-endedness of any research into the semantics of literary texts.
(aus dem Vorwort des CATMA User Manual, Schüch 2010).


Mit CATMA lassen sich Texte über Tags annotieren und in einem nächsten Arbeitsschritt bestimmte statistische Analysen über diese Annotationen auf einer intuitiv bedienbaren Benutzeroberfläche oder mithilfe eigener Anfragen rechnen, in Abhängigkeit von den Programmierkenntnissen des Anwenders.


Allgemeine Voraussetzungen

  • Kostenfreie Nutzung mit Registrierung über einen CATMA-Account oder per Google-Account
  • Nutzbar für Texte in den meisten Sprachen
  • Alle Ergebnisse können im .rtf-Format und TEI compliant XML-Format gespeichert und bei Bedarf in andere Tools wie z. B. Voyant exportiert werden
  • Benutzerfreundliches GUI in englischer Sprache; keine Programmierkenntnisse erforderlich
  • „Window in Window“-Funktion für Hilfeanfragen während des Arbeitens mit CATMA


Detaillierte Beschreibung des Tools (Version 5.0)

Obwohl mit CATMA Kollokationsanalysen und Wortlisten generiert werden können, lebt das Tool von der händischen Annotation und der Expertise des Literaturwissenschaftlers, der sein Wissen an den Text heranträgt. In dieser Hinsicht ist es vergleichbar beispielsweise mit Scheherazade, das ebenfalls einen Fokus auf die qualitative Textanalyse legt. CATMA ist gleichzeitig allerdings auch in der Lage, statistische Analysen der händischen Annotationen durchzuführen. Innerhalb des Tools gibt es fünf Module, welche zum Arbeiten mit Texten und Korpora herangezogen werden können. Diese stellen die Funktionen in CATMA dar. Innerhalb des Tools können beispielsweise automatische Annotationen von Korpora sowie halbautomatische Textannotationen vorgenommen und Tagsets erstellt und bearbeitet werden. Weiter bietet CATMA die Möglichkeit, im Modul Visualize erstellte und analysierte Textannotationen direkt zu visualisieren. CATMA bietet zwei Visualisierungsmöglichkeiten. Einerseits können Ergebnisse als interaktiver DoubleTree oder in einem Graphen präzise angezeigt werden. Die DoubleTree-Visualisierung bietet eine kompakte und interaktive Möglichkeit, Keywords im Kontext (Kwic) darzustellen. Die Distribution Graph-Visualisierung bietet die Möglichkeit, einzelne oder mehrere Textphänomene oder auch Annotationen sowie deren Vorkommen im Teil- oder Gesamttext darzustellen und miteinander zu vergleichen. Innerhalb der digitalen Arbeitsumgebung stellt der Arbeitsprozess eine hermeneutische Zirkel- bzw. Spiralstruktur dar. Darin unterscheidet sich CATMA von anderen in diesem Wiki vorgestellten Tools. Die interaktiven Komponenten des Tools sind:

  • CATMA Manage Resources: Bereich für die Erstellung und Organisation von Korpora und Tagsets
  • CATMA Annotate: Bereich für die Textannotation mit Tags
  • CATMA Analyze: Bereich für die Analyse mithilfe automatisierter Verfahren
  • CATMA Visualize: Bereich für die Visualisierung von Textphänomenen und Annotationsergebnissen
  • Query Builder: Teil des Analyze-Moduls

Im Nachfolgenden werden beispielhaft einzelne Arbeitsschritte mit CATMA veranschaulicht und erläutert.

Abb. 1: Startbildschirm des CATMA Taggers


Arbeitsschritte

  • Texte einspeisen: Das Source Document
Um einen Text einzuspeisen, klickt man den Button Open Source File. Es lässt sich jede Datei mit einer der oben genannten Endungen von der Festplatte aus laden. Gleich darauf öffnet sich ein Dialogfenster, das den Nutzer bittet, eine mit dem Quelldokument assoziierte Structure Markup File zu öffnen oder erstellen zu lassen.
CATMA lädt Einzeltexte der Formate doc, txt, pdf, html, htm und rtf.


  • Eine Structure Markup File erstellen
Abb. 2: Eine neue Structure Markup-Datei anlegen
In einem weiteren Schritt bittet CATMA den Benutzer, ein Structure Markup Document auszuwählen oder generieren zu lassen. In diesem Dokument speichert CATMA metatextuelle Informationen wie das Dateiformat, Textkodierung und die Sprache. Die Structure Markup-Datei erstellt CATMA automatisch, wenn an dieser Stelle "Create a new document" ausgewählt wird. Weiter wird CATMA dem ausgewählten Text in einem neuen Fenster ein Kodierungsformat zuweisen. Ob das Format richtig zugeordnet wurde, lässt sich überprüfen, indem man die Vorschau auf ausgetauschte Symbole durchsucht. Wird der Text korrekt angezeigt, hat CATMA das Textformat und die Kodierung richtig erkannt. Beides lässt sich auch manuell anpassen.
Abb. 3: Sprache des Quelltextes festlegen
In einem nächsten Schritt fragt CATMA nach der Sprache des Textes. Es lassen sich über 45 verschiedene Sprachen auswählen. Die Auswahl hilft CATMA, Wortarten korrekt zu trennen; beispielsweise sollte in einem englischsprachigen Text you'll als Kontraktion aus zwei Wörtern erkannt werden. Dazu lässt sich hier festlegen, wie CATMA den Apostroph behandeln soll. Weiter können manuell solche Einträge festgelegt werden, die nie getrennt dargestellt werden sollen. Es ist wichtig zu beachten, dass diese Auswahl sich nur ein Mal zu Beginn festlegen lässt und später nicht widerrufen oder verändert werden kann. Eine automatische Worterkennung liefert CATMA nicht.
Optional kann dem Text danach Informationen zum Titel, Autor, Herausgeber und eine Beschreibung beigefügt werden. Zum Schluss fragt CATMA nach der Textsorte und bittet den Benutzer, zwischen Prose, Drama und Speech auszuwählen. Die Structure Markup-Datei spielt im weiteren Annotations- und Analyseprozess keine Rolle und wird automatisch gespeichert, wenn zum Schluss Create User Markup File angeklickt wird.


  • Eine User Markup File erstellen
Die User Markup File ist die Datei, in der CATMA Annotationen am Text speichert. So bleiben Markup und Originaltext getrennt und der Text wird im Analyseprozess nicht verändert. Das spielt besonders dann eine Rolle, wenn mehrere Parteien gleichzeitig an verschiedenen Markups zu einem Text arbeiten. Außerdem ist es so auch möglich, verschiedene Markup-Dateien mit einem Textdokument zu assoziieren, um den Überblick über die eigene Textarbeit zu behalten. Der Name des Markup-Dokuments kann dazu jeweils angepasst werden.


  • Den Text taggen
  • Einzelne Textstellen taggen
Ein Text wird in CATMA über so genannte "Tags" annotiert. Tags sind im Wesentlichen digitale Unterstreichungen, die je nach Fragestellung entweder an einzelnen Wörtern oder an ganzen Absätzen vorgenommen werden können. Eine mögliche Vorgehensweise ist dabei, den Text mit gedrückter linker Maustaste zu markieren und dann mit einem rechten Mausklick Create Tag auszuwählen.
Abb. 4: Den Text taggen
In einem weiteren Dialogfenster bittet CATMA den Benutzer automatisch, einen Namen für den Tag anzulegen und ihm eine Farbe zuzuweisen. Außerdem muss dem neuen Tag ein Platz in der Hierarchie eines Tag-Sets zugewiesen werden. Standardmäßig lässt sich der neue Tag unter dem Standard Tagset einordnen. Alternativ können die gewünschten Tagsets auch vor dem Taggen festgelegt werden. Ein so erstellter Tag lässt sich danach auf jeden markierten Textteil übertragen, wobei sich Tags auch teilweise oder vollständig überschneiden dürfen. Im Folgenden wird erläutert, wie bestimmte händische Arbeitsschritte durch korpusanalytische Suchverfahren ersetzt werden können, indem mehrere Instanzen eines Ausdrucks über die Suchfunktion getaggt werden.
  • Mehrere Instanzen eines Ausdrucks taggen
Über die Suchfunktion kann CATMA mehrere Instanzen eines Ausdrucks gleichzeitig taggen. Dazu gibt man in der Suchmaske unter Berücksichtigung von Groß- und Kleinschreibung den Suchbegriff ein. Alle Instanzen des gesuchten Ausdrucks werden dabei markiert. Über die Buttons Down und Up lässt sich der Text händisch nach den markierten Abschnitten durchsuchen. Nach einem Klick auf Tag results öffnet sich ein separates Dialogfenster, in dem alle markierten Instanzen im Text als KWIC dargestellt werden. Hier lassen sich händisch einzelne Resultate aus der Suche ausschließen und im Anschluss alle gewünschten Funde mit einem vorher definierten Tag belegen.
Achtung: Es ist wichtig zu beachten, dass sich Suchergebnisse nur mit einem vordefinierten Tag belegen lassen. Der Tag kann hier nicht, wie beim Taggen von Einzelwörtern, nachträglich erstellt werden.
Tags können mithilfe der Buttons rechts neben dem Fenster mit der Tag-Baumstruktur nachbearbeitet werden. Es ist beispielsweise möglich, dem Tag Eigenschaften zuzuweisen. Diese bestehen im Wesentlichen in einer Beschreibung des jeweiligen Tags. Des Weiteren können hier Farben und Namen von Tags geändert und ganze Tagsets gelöscht werden.

Mögliche Analysen

CATMA bietet mehrere mögliche Analyseschritte an, die sich über die GUI ausführen lassen. Für diese sind keine Programmierkenntnisse erforderlich; weiter unten wird aber deutlich, dass schon Basiswissen über reguläre Ausdrücke komplexere Anfragen möglich macht und CATMA zu einem mächtigeren Werkzeug wird, wenn der Anwender selbst Anfragen programmieren kann.

  • Wortlisten
CATMA erstellt auf Anfrage Wortlisten, mit denen verschiedene Operationen ausgeführt werden können. Um die Wortliste anzuzeigen, wählt man in der linken Spalte 3. Make Selection und dann from Wordlist aus. Eingangs sortiert CATMA alle Einzelwörter des Quelltextes absteigend nach ihrer Frequenz, dies kann aber je nach Bedarf angepasst und beispielweise eine alphabetische Sortierung gewählt werden. Genau wie nach Einzelwörtern kann dabei auch nach Tags durchsucht werden. Mit diesen können im Wesentlichen drei Operationen durchgeführt werden: Kollokations- und Distributionsanalysen und in dem Zusammenhang auch KWIC-Analysen. Die KWIC-Anzeige lässt sich auch direkt über die Wortliste aufrufen.
Abb. 5: Key Word in Context-Ansicht
  • Kollokationsanalysen
Mit CATMA kann nach solchen Wörtern gesucht werden, die sich in unmittelbarer Nachbarschaft zu ausgewählten Wörtern oder Tags befinden. Dazu müssen in der Make Selection-Ansicht die entsprechenden Einträge ausgewählt werden und die Box links neben dem Befehl compute Collocation Analysis angetickt werden. Mit einem Klick auf Update Selection and View Results zeigt CATMA die Wörter in unmittelbarer Nachbarschaft zum Zieleintrag an.
Abb. 6: Kollokationsanalysen mit CATMA
Das gehäufte Auftreten solcher Nachbarschaften von Wörtern wird in der Linguistik als Kollokation bezeichnet. CATMA berechnet die Kollokationsfrequenz als absolute Menge der Vorkommnisse zweier Wörter im Quelltext. Gleichzeitig wird jeweils die statistische Wahrscheinlichkeit, dass eine Kollokation im Text nicht zufällig auftritt, als z-score angegeben. Zur ersten Orientierung: Je höher der z-score, entweder positiv oder negativ, desto wahrscheinlicher ist es, dass die Kollokation im Text auftritt.
Unten rechts im Kollokationsanalysefenster befindet sich ein Regler, mit dessen Hilfe zwischen einer KWIC-Ansicht, einer variablen Textansicht (d.h., im Kontext einer veränderbaren Anzahl von Wörtern rechts und links vom Zieleintrag) oder dem Volltext gewechselt werden kann.
  • Distributionsanalysen
CATMA kann die Verteilung eins oder mehrerer ausgewählter Wörter oder Tags im Quelltext als Graph anzeigen. Um diese Distributionsanalyse anzuzeigen, geht man wiederum, wie bei der Kollokationsanalyse, von der Wortliste aus und tickt die Box links neben dem Befehl Compute Distribution Analysis an. Weiter lässt sich die Größe der chunks, also der bei der Berechnung der Verteilung berücksichtigten Wortgruppen, variabel einstellen. Als zielführend hat sich eine Einteilung in 10%-chunks erwiesen, da eine feinere Gliederung zumeist dazu führt, dass sich lediglich punktuelle Vorkommnisse und keine sichtbaren Verteilungen über den Text ausmachen lassen.
Abb. 7: Distributionanalysen mit CATMA
Im vorliegenden Beispiel wurde eine Anfrage mithilfe des CATMA QueryBuilders gestellt, die die Verteilung getaggter Instanzen im Quelltext betrifft, nicht die von einzelnen Wörtern. Das heißt, mit dem QueryBuilder lässt sich der Text über die Wortliste hinaus auch im Hinblick Tags analysieren. Wie der QueryBuilder dem programmierunerfahrenen Anwender dabei hilft, wird im Folgenden erläutert.
  • Komplexe Anfragen: Der CATMA QueryBuilder
Abb. 8: Der CATMA QueryBuilder
Über die oben vorgestellten Analysen hinaus lassen sich eine Vielzahl komplexer Anfragen an den Text stellen, für die Anwender ohne Programmierkenntnisse den so genannten QueryBuilder nutzen können. Er ist also im Wesentlichen eine graphische Oberfläche für das Ausführen komplexerer Operationen. Mit einem Klick auf den Button QueryBuilder unterhalb der Eingabemaske für Queries öffnet sich ein neues Fenster, welches nach der gewünschten Auswahl fragt.
Abb. 9: Suche nach Einzelwörtern mit dem QueryBuilder
Es lässt sich beispielsweise eine Suche nach Einzelwörtern und Tags kombinieren sowie unerwünschte Einträge aus der Auswahl ausschließen. Damit können Distributions- und Kollokationsanalysen über mehrere Wortgruppen und/oder Tags angezeigt werden (siehe auch Anwendungsbeispiel).
Der QueryBuilder erstellt nach den Angaben auf der GUI die Anfrage automatisch, welche zum Schluss in der Eingabemaske für Queries in der Tagging-Ansicht angezeigt wird. In dieser Eingabemaske lassen sich die Anfragen im Anschluss auch modifizieren. Als besonders nützlich erweist sich an dieser Stelle das CATMA-Handbuch, welches ab S. 46 die Query-Syntax im Detail anhand von Beispielen erklärt.
Mit dem QueryBuilder und der Kollokations- und Distributionsanalyse wurden in diesem Abschnitt die wesentlichen Funktionalitäten von CATMA erläutert und anhand von Screenshots das jeweilige Vorgehen beim Taggen und der anschließenden Analyse erklärt. Im Folgenden soll ein Beispiel gegeben werden, wie die empirische Analyse eines literarischen Textes mit CATMA aussehen könnte.


Benutzerfreundlichkeit und Transparenz

Benutzerfreundlichkeit

CATMA richtet sich an Literaturwissenschaftler mit geringen oder keinen Programmierkenntnissen. In diesem Punkt ähnelt es [Scheherazade], welches mit dem Story-Graph-Ansatz allerdings anderes Ziel verfolgt als CATMA. Auf den ersten Blick wirkt das Tool eher unübersichtlich, allerdings sorgen die klar dargestellte Chronologie der Arbeitsschritte innerhalb des Tools und ein benutzerfreundliches Handbuch, das sich aus jedem Arbeitsschritt heraus mit einem Klick auf den Help-Button öffnen lässt und sich bei der ersten Anwendung automatisch öffnet dafür, dass sich der Benutzer schnell einarbeiten kann.

Es lassen sich viele verschiedene Dateiformate einspeisen und alle Annotationen werden automatisch in der User Markup File gespeichert. Als besonders anwenderfreundlich kann auch hervorgehoben werden, dass sich die generierten Daten als rtf-Datei exportieren lassen und damit flexibel für weitere (statistische) Analysen außerhalb von CATMA einsetzbar sind. Außerdem besteht eine direkte Verknüpfung zu Voyant, sodass die fehlende Möglichkeit, Texte vergleichend gegenüberzustellen, mit wenig Arbeitsaufwand ausgeglichen werden kann.

Transparenz

Die Anfragen, die CATMA bearbeitet, werden über die Querysyntax maximal transparent gemacht. Zudem gibt es ein System Log-Fenster im Programm (zu sehen im Screenshot "Den Text taggen"), welches alle ausgeführten Operationen dokumentiert, sodass sich die ablaufenden Prozesse zurückverfolgen lassen. Gerade bei komplexeren Anfragen über den QueryBuilder kann es allerdings passieren, dass naive Anwender bei ihrer Anfrage etwas anderes im Sinn haben, als letztendlich von CATMA ausgeführt wird, denn CATMA baut Anfragen über den QueryBuilder additiv auf. Wenn beispielsweise eine Analyse über drei Tagsets angestrebt wird und zum Schluss ein bestimmtes Wort aus der Anfrage ausgeschlossen werden soll, wird CATMA dieses Wort nur aus dem letzten in die Anfrage aufgenommenen Tagset ausschließen, nicht aus den ersten zwei Tagsets. Der Anwender müsste zur Query-Eingabemaske im Tagging-Fenster wechseln und die Syntax dort überprüfen. In diesem Fall wäre um die ersten drei Anfragen eine Klammer zu setzen, damit sich die letzte Operation auf alle drei Tags auswirkt. Die Funktionalität des QueryBuilders könnte an dieser Stelle noch transparenter gemacht werden.

Problematisch ist des Weiteren, dass CATMA Tags unabhängig von ihrem Umfang zählt. Größere getaggte Abschnitte werden wie kleinere als 1 Tag erfasst - dies kann bei bestimmten Fragestellungen zu Verzerrungen führen. Der Anwender muss sich seiner Technik beim Taggen bewusst sein (kleinere oder größere Abschnitte taggen) und sich bewusst machen, dass die Entscheidung Auswirkungen auf seine Ergebnisse hat. Auf diese Problematik wird nicht hingewiesen und es ist nicht klar, wie genau dies die Ergebnisse beeinflussen kann.

Beispielanwendung

Zukunftspläne für CATMA

Das CATMA Entwicklerteam arbeitet derzeit an einer Weiterentwicklung von CATMA mit dem Namen CLÉA. CLÉA soll CATMA um einige Funktionen erweitern und vor allem mit Google Books als (Referenz)korpus arbeiten können. Diese Distribution wird webbasiert sein, d.h. die Applikation muss nicht mehr installiert werden, sondern lässt sich von jedem Rechner aus direkt im Browser starten. CLÉA soll zudem ein lernfähiges Tool werden, welches das Taggen für den Anwender durch mehr eingebundene automatisierte Verfahren vereinfacht. Dazu gehört z.B. eine Worterkennung, die automatisches POS-Tagging möglich macht.

Literatur

Weblinks