CATMA

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche

CATMA steht für Computer Aided Textual Markup and Analysis. Es handelt sich dabei um ein Annotations- und Analysetool, das methodologisch der empirischen Literaturwissenschaft zugeordnet werden kann. CATMA wurde für die literaturwissenschaftliche Analyse von Einzeltexten entwickelt und richtet sich speziell an Anwender mit wenig oder keinen Programmierkenntnissen. Es kann in der aktuellen Version CATMA 3.2 kostenfrei heruntergeladen werden. Die Software wird von einem Entwicklerteam an der Universität Hamburg laufend gewartet und weiterentwickelt. Der Projektleiter Jan Christoph Meister beschreibt das Arbeiten mit CATMA:


CATMA's workflow tries to emulate that of a traditional literary scholar who reads a text, makes some annotations, compares and analyses the notes and then uses these results to interpret the text. [...] CATMA must also pay tribute to one of the key methodological tenets of literary scholarship: the principal open-endedness of any research into the semantics of literary texts.
(aus dem Vorwort des CATMA User Manual, Schüch 2010).


Mit CATMA lassen sich Texte über Tags annotieren und in einem nächsten Arbeitsschritt bestimmte statistische Analysen über diese Annotationen auf einer intuitiv bedienbaren Benutzeroberfläche oder mithilfe eigener Anfragen rechnen, in Abhängigkeit von den Programmierkenntnissen des Anwenders.


Allgemeine Voraussetzungen

  • Technische Voraussetzungen: Mac/Windows Betriebssystem und eine aktuelle JAVA-Version
  • Aktuelle Version: CATMA 3.2
  • Installationssoftware für Mac und Windows (JAVA basiert)
  • kostenfreie Nutzung ohne Registrierung
  • Nutzbar für Texte in über 45 Sprachen (Part of Speech-Trennung)
  • Alle Ergebnisse können im .rtf-Format gespeichert und bei Bedarf zu Voyeur exportiert werden
  • Benutzerfreundliche englischsprachige GUI: keine Programmierkenntnisse erforderlich
  • Aufrufen von Hilfeseiten während der Bearbeitung möglich


Detaillierte Beschreibung des Tools und Arbeitsschritte

Obwohl mit CATMA Kollokationsanalysen und Wortlisten generiert werden können, lebt das Tool von der händischen Annotation und der Expertise des Literaturwissenschaftlers, der sein Wissen an den Text heranträgt. In dieser Hinsicht ist es vergleichbar beispielsweise mit Scheherazade, das ebenfalls einen Fokus auf die qualitative Textanalyse legt. CATMA ist gleichzeitig allerdings in der Lage, statistische Analysen über händische Annotationen durchzuführen. Darin unterscheidet sich CATMA von den anderen in diesem Wiki vorgestellten Tools. Die drei interaktiven Komponenten des Tools sind:

  • CATMA Tagger: Bereich für die Textarbeit mit Tags
  • CATMA Analyzer: Bereich für die Analyse mithilfe automatisierter Verfahren
  • Query Builder: GUI für Anfragen an den Text mithilfe regulärer Ausdrücke

Meine Beschreibung der einzelnen Arbeitsschritte in CATMA folgt in weiten Teilen dem englischsprachigen CATMA User Manual von Lena Schüch. Die Screenshots dienen als Anschauungsmaterial und zeigen die Mac-Distribution, ggf. kann sich die Oberfläche in Windows etwas anders darstellen.

Startbildschirm des CATMA Taggers


  • Texte einspeisen: Das Source Document
Um einen Text einzuspeisen, klickt man den Button Open Source File. Es lässt sich jede Datei mit einer der oben genannten Endungen von der Festplatte aus laden. Gleich darauf öffnet sich ein Dialogfenster, das den Nutzer bittet, eine mit dem Quelldokument assoziierte Structure Markup File zu öffnen oder erstellen zu lassen.
CATMA lädt Einzeltexte der Formate doc, txt, pdf, html, htm und rtf.


  • Eine Structure Markup File erstellen
Eine neue Structure Markup-Datei anlegen
In einem weiteren Schritt bittet CATMA den Benutzer, ein Structure Markup Document auszuwählen oder generieren zu lassen. In diesem Dokument speichert CATMA metatextuelle Informationen wie das Dateiformat, Textkodierung und die Sprache. Die Structure Markup-Datei erstellt CATMA automatisch, wenn an dieser Stelle "Create a new document" ausgewählt wird. Weiter wird CATMA dem ausgewählten Text in einem neuen Fenster ein Kodierungsformat zuweisen. Ob das Format richtig zugeordnet wurde, lässt sich überprüfen, indem man die Vorschau auf ausgetauschte Symbole durchsucht. Wird der Text korrekt angezeigt, hat CATMA das Textformat und die Kodierung richtig erkannt. Beides lässt sich auch manuell anpassen.
Sprache des Quelltextes festlegen
In einem nächsten Schritt fragt CATMA nach der Sprache des Textes. Es lassen sich über 45 verschiedene Sprachen auswählen. Die Auswahl hilft CATMA, Wortarten korrekt zu trennen; beispielsweise sollte in einem englischsprachigen Text you'll als Kontraktion aus zwei Wörtern erkannt werden. Dazu lässt sich hier festlegen, wie CATMA das Apostroph behandeln soll. Weiter können manuell solche Einträge festgelegt werden, die nie getrennt dargestellt werden sollen. Es ist wichtig zu beachten, dass diese Auswahl sich nur ein Mal zu Beginn festlegen lässt und später nicht widerrufen oder verändert werden kann. Eine automatische Worterkennung liefert CATMA nicht.
Optional kann dem Text danach Informationen zum Titel, Autor, Herausgeber und eine Beschreibung beigefügt werden. Zum Schluss fragt CATMA nach der Textsorte und bittet den Benutzer, zwischen Prose, Drama und Speech auszuwählen. Die Structure Markup-Datei spielt im weiteren Annotations- und Analyseprozess keine Rolle und wird automatisch gespeichert, wenn zum Schluss Create User Markup File angeklickt wird.


  • Eine User Markup File erstellen
Die User Markup File ist die Datei, in der CATMA Annotationen am Text speichert. So bleiben Markup und Originaltext getrennt und der Text wird im Analyseprozess nicht verändert. Das spielt besonders dann eine Rolle, wenn mehrere Parteien gleichzeitig an verschiedenen Markups zu einem Text arbeiten. Außerdem ist es so auch möglich, verschiedene Markup-Dateien mit einem Textdokument zu assoziieren, um den Überblick über die eigene Textarbeit zu behalten. Der Name des Markup-Dokuments kann dazu jeweils angepasst werden.


  • Den Text taggen
  • Einzelne Textstellen taggen
Ein Text wird in CATMA über so genannte "Tags" annotiert. Tags sind im Wesentlichen digitale Unterstreichungen, die je nach Fragestellung entweder an einzelnen Wörtern oder an ganzen Absätzen vorgenommen werden können. Eine mögliche Vorgehensweise ist dabei, den Text mit gedrückter linker Maustaste zu markieren und dann mit einem rechten Mausklick Create Tag auszuwählen.
Den Text taggen
In einem weiteren Dialogfenster bittet CATMA den Benutzer automatisch, einen Namen für den Tag anzulegen und ihm eine Farbe zuzuweisen. Außerdem muss dem neuen Tag ein Platz in der Hierarchie eines Tag-Sets zugewiesen werden. Standardmäßig lässt sich der neue Tag unter dem Standard Tagset einordnen. Alternativ können die gewünschten Tagsets auch vor dem Taggen festgelegt werden. Ein so erstellter Tag lässt sich danach auf jeden markierten Textteil übertragen, wobei sich Tags auch teilweise oder vollständig überschneiden dürfen. Im Folgenden wird erläutert, wie bestimmte händische Arbeitsschritte durch korpusanalytische Suchverfahren ersetzt werden können, indem mehrere Instanzen eines Ausdrucks über die Suchfunktion getaggt werden.
  • Mehrere Instanzen eines Ausdrucks taggen
Über die Suchfunktion kann CATMA mehrere Instanzen eines Ausdrucks gleichzeitig taggen. Dazu gibt man in der Suchmaske unter Berücksichtigung von Groß- und Kleinschreibung den Suchbegriff ein. Alle Instanzen des gesuchten Ausdrucks werden dabei markiert. Über die Buttons Down und Up lässt sich der Text händisch nach den markierten Abschnitten durchsuchen. Nach einem Klick auf Tag results öffnet sich ein separates Dialogfenster, in dem alle markierten Instanzen im Text als KWIC dargestellt werden. Hier lassen sich händisch einzelne Resultate aus der Suche ausschließen und im Anschluss alle gewünschten Funde mit einem vorher definierten Tag belegen.
Achtung: Es ist wichtig zu beachten, dass sich Suchergebnisse nur mit einem vordefinierten Tag belegen lassen. Der Tag kann hier nicht, wie beim Taggen von Einzelwörtern, nachträglich erstellt werden.
Tags können mithilfe der Buttons rechts neben dem Fenster mit der Tag-Baumstruktur nachbearbeitet werden. Es ist beispielsweise möglich, dem Tag Eigenschaften zuzuweisen. Diese bestehen im Wesentlichen in einer Beschreibung des jeweiligen Tags. Des Weiteren können hier Farben und Namen von Tags geändert und ganze Tagsets gelöscht werden.

Mögliche Analysen

CATMA bietet mehrere mögliche Analyseschritte an, die sich über die GUI ausführen lassen. Für diese sind keine Programmierkenntnisse erforderlich; weiter unten wird aber deutlich, dass schon Basiswissen über reguläre Ausdrücke komplexere Anfragen möglich macht und CATMA zu einem mächtigeren Werkzeug wird, wenn der Anwender selbst Anfragen programmieren kann.

  • Wortlisten
CATMA erstellt auf Anfrage Wortlisten, mit denen verschiedene Operationen ausgeführt werden können. Um die Wortliste anzuzeigen, wählt man in der linken Spalte 3. Make Selection und dann from Wordlist aus. Per default sortiert CATMA alle Einzelwörter des Quelltextes absteigend nach ihrer Frequenz. Genau wie nach Einzelwörtern kann dabei auch nach Tags durchsucht werden. Mit diesen können im Wesentlichen drei Operationen durchgeführt werden: Kollokations- und Distributionsanalysen und in dem Zusammenhang auch KWIC-Analysen. Die KWIC-Anzeige lässt sich dabei auch über die Wortliste aufrufen.
Key Word in Context-Ansicht
  • Kollokationsanalysen
Mit CATMA kann nach solchen Wörtern gesucht werden, die sich in unmittelbarer Nachbarschaft zu ausgewählten Wörtern oder Tags befinden. Dazu müssen in der Make Selection-Ansicht die entsprechenden Einträge ausgewählt werden und die Box links neben dem Befehl compute Collocation Analysis angetickt werden. Mit einem Klick auf Update Selection and View Results zeigt CATMA die Wörter in unmittelbarer Nachbarschaft zum Zieleintrag an.
Kollokationsanalysen mit CATMA
Das gehäufte Auftreten solcher Nachbarschaften von Wörtern wird in der Linguistik als Kollokation bezeichnet. CATMA berechnet die Kollokationsfrequenz als absolute Menge der Vorkommnisse zweier Wörter im Quelltext. Gleichzeitig wird jeweils die statistische Wahrscheinlichkeit, dass eine Kollokation im Text nicht zufällig auftritt, als z-score angegeben. Zur ersten Orientierung: Je höher der z-score, entweder positiv oder negativ, desto wahrscheinlicher ist es, dass die Kollokation im Text auftritt.
Unten rechts im Kollokationsanalysefenster befindet sich ein Regler, mit dessen Hilfe zwischen einer KWIC-Ansicht, einer variablen Textansicht (d.h., im Kontext einer veränderbaren Anzahl von Wörtern rechts und links vom Zieleintrag) oder dem Volltext gewechselt werden kann.
  • Distributionsanalysen
CATMA kann die Verteilung eins oder mehrerer ausgewählter Wörter oder Tags im Quelltext als Graph anzeigen. Um diese Distributionsanalyse anzuzeigen, geht man wiederum, wie bei der Kollokationsanalyse, von der Wortliste aus und tickt die Box links neben dem Befehl Compute Distribution Analysis an. Weiter lässt sich die Größe der chunks, also der bei der Berechnung der Verteilung berücksichtigten Wortgruppen, variabel einstellen. Als zielführend hat sich eine Einteilung in 10%-chunks erwiesen, da eine feinere Gliederung dazu führt, dass sich keine sichtbaren Verteilungen über den Text ausmachen lassen, sondern lediglich punktuelle Vorkommnisse.
Distributionanalysen mit CATMA
Im vorliegenden Beispiel wurde eine Anfrage mithilfe des CATMA QueryBuilders gestellt, die die Verteilung getaggter Instanzen im Quelltext betrifft, nicht die von einzelnen Wörtern. Das heißt, mit dem QueryBuilder lässt sich der Text über die Wortliste hinaus auch im Hinblick Tags analysieren. Wie der QueryBuilder dem programmierunerfahrenen Anwender dabei hilft, wird im Folgenden erläutert.
  • Komplexe Anfragen: Der CATMA QueryBuilder
Der CATMA QueryBuilder
Über die oben vorgestellten Analysen hinaus lassen sich eine Vielzahl komplexer Anfragen an den Text stellen, für die Anwender ohne Programmierkenntnisse den so genannten QueryBuilder nutzen können. Er ist also im Wesentlichen eine graphische Oberfläche für das Ausführen komplexerer Operationen. Mit einem Klick auf den Button QueryBuilder unterhalb der Eingabemaske für Queries öffnet sich ein neues Fenster, welches nach der gewünschten Auswahl fragt. Es lässt sich beispielsweise eine Suche nach Einzelwörtern und Tags kombinieren sowie unerwünschte Einträge aus der Auswahl ausschließen. Damit können Distributions- und Kollokationsanalysen über mehrere Wortgruppen und/oder Tags angezeigt werden (siehe auch Anwendungsbeispiel).
Suche nach Einzelwörtern mit dem QueryBuilder
Der QueryBuilder erstellt nach den Angaben auf der GUI die Anfrage automatisch, welche zum Schluss in der Eingabemaske für Queries in der Tagging-Ansicht angezeigt wird. In dieser Eingabemaske lassen sich die Anfragen im Anschluss auch modifizieren. Als besonders nützlich erweist sich an dieser Stelle das CATMA-Handbuch, welches ab S. 46 die Query-Syntax im Detail anhand von Beispielen erklärt.
Mit dem QueryBuilder und der Kollokations- und Distributionsanalyse wurden in diesem Abschnitt die wesentlichen Funktionalitäten von CATMA erläutert und anhand von Screenshots das jeweilige Vorgehen beim Taggen und der anschließenden Analyse erklärt. Im Folgenden soll ein Beispiel gegeben werden, wie die empirische Analyse eines literarischen Textes mit CATMA aussehen könnte.


Benutzerfreundlichkeit und Transparenz

Benutzerfreundlichkeit

CATMA richtet sich an Literaturwissenschaftler mit geringen oder keinen Programmierkenntnissen. In diesem Punkt ähnelt es [Scheherazade], welches mit dem Story-Graph-Ansatz allerdings anderes Ziel verfolgt als CATMA. Auf den ersten Blick wirkt das Tool eher unübersichtlich, allerdings sorgen die klar dargestellte Chronologie der Arbeitsschritte innerhalb des Tools und ein benutzerfreundliches Handbuch, das sich aus jedem Arbeitsschritt heraus mit einem Klick auf den Help-Button öffnen lässt und sich bei der ersten Anwednung automatisch öffnet dafür, dass sich der Benutzer schnell einarbeiten kann.

Es lassen sich viele verschiedene Dateiformate einspeisen und alle Annotationen werden automatisch in der User Markup File gespeichert. Als besonders anwenderfreundlich kann auch hervorgehoben werden, dass sich die generierten Daten als rtf-Datei exportieren lassen und damit flexibel für weitere (statistische) Analysen außerhalb von CATMA einsetzbar sind. Außerdem besteht eine direkte Verknüpfung zu Voyeur, sodass die fehlende Möglichkeit, Texte vergleichend gegenüberzustellen, mit wenig Arbeitsaufwand ausgeglichen werden kann.


Transparenz

Die Anfragen, die CATMA bearbeitet, werden über die Querysyntax maximal transparent gemacht. Zudem gibt es ein System Log-Fenster im Programm (zu sehen im Screenshot "Den Text taggen" oben), welches alle ausgeführten Operationen dokumentiert, sodass sich die ablaufenden Prozesse zurückverfolgen lassen. Gerade bei komplexeren Anfragen über den QueryBuilder kann es allerdings passieren, dass naive Anwender bei ihrer Anfrage etwas anderes im Sinn haben, als letztendlich von CATMA ausgeführt wird. CATMA baut Anfragen über den QueryBuilder additiv auf. Wenn beispielsweise eine Analyse über drei Tagsets angestrebt wird und zum Schluss ein bestimmtes Wort aus der Anfrage ausgeschlossen werden soll, wird CATMA dieses Wort nur aus dem letzten in die Anfrage aufgenommenen Tagset ausschließen, nicht aus den ersten zwei Tagsets. Der Anwender müsste zur Query-Eingabemaske im Tagging-Fenster wechseln und die Syntax dort überprüfen. In diesem Fall wäre um die ersten drei Anfragen eine Klammer zu setzen, damit sich die letzte Operation auf alle drei Tags auswirkt. Die Funktionalität des QueryBuilders könnte an dieser Stelle noch transparenter gemacht werden.

Problematisch ist des Weiteren, dass CATMA Tags unabhängig von ihrem Umfang zählt. Größere getaggte Abschnitte werden wie kleinere als 1 Tag erfasst - dies kann bei bestimmten Fragestellungen zu Verzerrungen führen. Der Anwender muss sich seiner Technik beim Taggen bewusst sein (kleinere oder größere Abschnitte taggen) und sich bewusst machen, dass die Entscheidung Auswirkungen auf seine Ergebnisse hat. Auf diese Problematik wird nicht hingewiesen und es ist nicht klar, wie genau dies die Ergebnisse beeinflussen kann.

Beispielanwendung

An dieser Stelle soll skizzenhaft vorgestellt werden, wie eine textuelle Analyse mit CATMA aussehen könnte. Quelltext ist Arthur Schnitzlers Novelle "Die Toten Schweigen" (1897), die ich auf die Konstellation der beiden Hauptfiguren und eine bestimmte Symbolik getaggt habe. Die explorative Fragestellung ist dabei, ob die Lichtsymbolik in Schnitzlers Text mit den zwei Hauptfiguren Emma und Franz verwoben ist oder ob die Figuren davon gänzlich unberührt bleiben.

Dazu habe ich zunächst zwei Tags für die Hauptfiguren erstellt: "Emma" und "Franz". Dann habe ich händisch nach der Methode des close reading den Text auf das Auftreten der Figuren hin untersucht: Getaggt wurden alle Vorkommnisse von Namen oder referenziellen Ausdrücken, die sich auf die beiden Hauptfiguren als Agens einer Handlung oder Experiencer eines Verbs kognitiver Wahrnehmung beziehen. Mit anderen Worten: Es sollte ausgeschlossen werden, dass lediglich der Name der Figur fällt, beispielsweise innerhalb einer Figurenrede.

Danach habe ich CATMA alle Vorkommnisse der strings licht und dunkel über die Wortliste suchen lassen, um einen ersten Eindruck ihrer Verteilung im Text zu bekommen. Schon beim ersten Rückgriff in den Volltext zeigte sich dabei allerdings die Schwierigkeit einer solchen "Operationalisierung" für Symbolik im Text, wenn beispielsweise über Emma gesagt wird: "Angstvoll wartete sie auf das Licht." (Schnitzler 1998/1897). Dem aufmerksamen Leser kann nicht entgehen, dass hier ein Tag "Dunkel" angebracht ist, trotz einer Instanz des Lemmas "Licht", weil es inhaltlich gerade um die Abwesenheit von Licht geht und Emma mit Dunkelheit assoziiert wird. Je nach Fragestellung und Feingliedrigkeit der ausgewählten Tags könnte man hier auch Tags überlagern oder strittige Fälle gesondert kennzeichnen. Ich bin daraufhin den Text nochmals manuell durchgegangen und habe alle Begriffe aus der Wortfamilie "Licht" getaggt (z.B. auch "hell") und alle aus der Wortfamilie "Dunkelheit" (z.B. auch "Nacht"), wobei Verneinungen jeweils durch einen Tag der entgegensetzten Wortfamilie aufgenommen wurden.

Distribution von Figurenhandlung/-wahrnehmung und Lichtsymbolik in Schnitzlers "Die Toten Schweigen"

Nachdem der Text auf diese Weise bearbeitet wurde, habe ich CATMA eine Distributionsanalyse erstellen lassen. Diese wird oben schon im Screenshot "Distributionsanalysen mit CATMA" angezeigt; die ausgegebene Graphik ist unten nochmals vergrößert dargestellt. Im Distributionsanalyse-Fenster lassen sich jeweils die Knotenpunkte anklicken, von dort wird der Anwender direkt in den Volltext geleitet. Anhand der Verteilung der Tags im Text lässt sich keine direkte Verbindung zu den Figuren ausmachen. Die Textstelle um Franz Tod liegt in Fragment 40 des Quelltextes; dies ist auch erkennbar daran, dass er ab dort nicht mehr als Agens oder Experiencer im Text auftaucht. Obwohl keine direkte Verbindung zu den Figuren erkennbar ist, zeigt sich ein interessanter Zusammenhang zwischen Lichtsymbolik und Haupthandlung: Im ersten Teil des Textes, in dem Emma und Franz sich treffen, dominiert leicht eine dunkle Symbolik. Um die Textstelle nach Franz' Tod ändert sich dies jedoch; obwohl Emma nun allein Agens/Experiencer der Haupthandlung ist und emotional in tiefe Verzweiflung gestürzt wird, beginnt gerade hier die Lichtsymbolik über die Dunkelheit zu dominieren. Dies birgt interessante Implikationen für eine Interpretation des Textes: Der Schluss der Novelle, "als würde vieles wieder gut" (Schnitzler 1998/1897), wird durch die Lichtsymbolik lange vorher antizipiert. Dies zeigt die Distributionsanalyse: Wörter aus der Wortfamilie "Licht" dominieren den Text ab Franz' Tod durchgängig bis zum Schluss, ohne dass es dem Leser notwendigerweise bewusst wird. Die Distributionsanalyse mit CATMA hilft an dieser Stelle also nicht nur, den Wendepunkt der Licht-Dunkel-Symbolik im Text zu visualisieren, sondern macht auch textuelle Zusammenhänge sichtbar, die beim close reading möglicherweise verborgen geblieben wären.

Fazit

CATMA ist ein Annotations- und Analysetool, welches sich der Idee eines hermeneutic markup verpflichtet. Mit seiner Flexibilität trägt es der Tatsache Rechnung, dass Annotation gleichzeitig immer auch Interpretation bedeutet und literarische Texte einer besonderen Aufmerksamkeit durch den Leser bedürfen, da sie sich einer Objektivierung allein über textuell-formale Oberflächeneigenschaften systematisch entziehen (Wendell 2010). Mit anderen Worten: Literarische Phänomene in Texten lassen sich unter Umständen weniger leicht operationalisieren als linguistische. Dies wurde in der Beispielanalyse anhand der Licht-Dunkel-Symbolik in Schnitzlers "Die Toten Schweigen" gezeigt: Allein mithilfe korpuslinguistischer Verfahren ist das Auffinden der für die Fragestellung relevanten Textstellen unter Umständen nicht möglich oder es kommt zu Fehlinterpretationen, weil über automatisierte Verfahren lediglich die Textoberfläche (strings) berücksichtigt werden kann. Die potentielle Mehrdeutigkeit literarischer Texte bedingt eine Interpretation schon während der Annotation (Rommel 2004). In CATMA können Tags flexibel eingesetzt werden, sich überlagern und sind an keine inhaltlichen Vorlagen gebunden. Es ist genauso denkbar, den Text automatisch durchsuchen zu lassen, im Nachhinein alle Funde händisch zu überprüfen und für die Interpretation in den literarischen Text zurück zu gehen. Hier setzt CATMA keine technischen Grenzen - wie die ideale Vorgehensweise aussieht, hängt von der jeweiligen Fragestellung ab.

Eine Analyse über Korpora ist in CATMA nicht möglich. Das Tool lässt sich mit Einschränkungen dafür anpassen, indem mehrere Texte in einer Datei zusammengefasst und als solche eingespeist werden. Dies ist ohne weiteres möglich; es muss dabei allerdings bedacht werden, dass die einzelnen Texte eines so erstellten 'Korpus' von CATMA nicht differenziert betrachtet werden und bestimmte Analysen über alle Texte gefahren werden müssen. Es ist nicht möglich, mehrere Texte direkt in CATMA zu vergleichen wie es bspw. bei den korpusanalytischen Tools AntConc oder Di-Lemmata der Fall ist; allerdings lassen sich die mit CATMA generierten Daten nach Voyeur exportieren und dort weiterverwenden. Wiederum hängt der Ertrag eines solchen Vorgehens, gerade angesichts der zeitintensiven Annotationsprozesses, von der Fragestellung ab, die der Anwender verfolgt.

CATMA eignet sich vor allem für die Analyse kürzerer Einzeltexte. Dem Volltext wird in diesem Tool viel Platz eingeräumt, nicht nur im übertragenen Sinn: Er ist während des Analyseprozesses jederzeit zugänglich. Die händische/halbautomatisierte Annotation ist vergleichsweise zeitaufwändig; gleichzeitig geht es, wie oben angedeutet, um einen Interpretationsprozess, bei dem möglicherweise die textnahe, händische Annotation im Text Verborgenes erst in diesem Prozess sichtbar macht. Die Trennung von Markup und Quelltext und die Option, mehrere Markup-Dateien zu einer Quelldatei zu laden und übereinander zu legen, eröffnet außerdem einen Weg, Interpretationsprozesse verschiedener Leser zu vergleichen und konkret strittige Textstellen offen zu legen, um sie diskutieren zu können (Stichwort collaborative markup). Die Präsentation von Analysen wie beispielsweise des Distributionsgraphen kann daher nicht als "Ergebnis" einer Interpretation gewertet werden. Sie ist als eine Visualisierung zu verstehen, die einen Zeitpunkt der Analyse widerspiegelt. Alle Analysen, die in CATMA erstellt werden, können gleichsam "am Text bewiesen" und von Dritten auf den Text zurückgeführt werden (vgl. auch Rommel 2004). Damit werden sie wiederum selbst potentiell Gegenstand eines Interpretationsprozesses.

Zukunftspläne für CATMA

Das CATMA Entwicklerteam arbeitet derzeit an einer Weiterentwicklung von CATMA mit dem Namen CLÉA. CLÉA soll CATMA um einige Funktionen erweitern und vor allem mit Google Books als (Referenz)korpus arbeiten können. Diese Distribution wird webbasiert sein, d.h. die Applikation muss nicht mehr installiert werden, sondern lässt sich von jedem Rechner aus direkt im Browser starten. CLÉA soll zudem ein lernfähiges Tool werden, welches das Taggen für den Anwender durch mehr eingebundene automatisierte Verfahren vereinfacht. Dazu gehört z.B. das automatisierte POS-Tagging.


Literatur

Weblinks

Einzelnachweise

Reparaturbedürftig :); s.e.

<references />