AntConc

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche

AntConc ist ein Korpusanalyse-, sowie Konkordanzprogramm für Windows, Mac OS X und Linux Betriebssysteme und wurde von Laurence Anthony an der Waseda Universität in Tokio, Japan entwickelt. Es kann methodologisch der Korpuslinguistik zugeordnet werden. Der aktuelle Stable Release befindet sich in der Version 3.2.4. Der Download des Development Release 3.3.0 ist, wie der jeweils neueste Stable Release, über die AntConc Homepage zu erreichen, eignet sich allerdings aufgrund seiner Instabilität noch nicht zum Arbeiten.

Das Programm ist für quantitative Textanalysen gedacht, die sowohl automatische als auch manuelle Arbeitsschritte erfordern.

Allgemeine Voraussetzungen

AntConc v.3.2.4 ist aus dem Web ohne eine Art von Registrierung kostenlos herunterladbar (Freeware) und muss nicht installiert werden, sondern wird direkt durch das Klicken des Icons gestartet. Es läuft durchweg im Offlinebetrieb und benötigt geringen Festplattenspeicher, da das Programm, je nach Betriebssystem, nur zwischen 4 KB und 7 MB groß ist.

Unterschiedliche Versionen für die drei größten Betriebssysteme sind auf der Homepage des Entwicklers vorhanden. Für Linux wurde das Programm nur auf Ubuntu 10 getestet, Mac-User benötigen mindestens 10.4.x sowie das Mac-Toolkit X11. Auf Windows läuft AntConc v.3.2.4 ab Win 98 aufwärts. Keine weiteren Zusätze müssen installiert werden. Für bestimmte Korpusuntersuchungen sollte vorsichtshalber ausreichend Arbeitsspeicher vorhanden sein. Die Daten- und Ergebnisspeicherung findet ausschließlich auf der Festplatte statt. Es werden vom Entwickler keinerlei Garantien geleistet, sollte das Programm Schäden am PC des Users hervorrufen.

Detaillierte Beschreibung des Tools

AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die Einzelanalyse von als auch den Vergleich zwischen mehreren Texten und Korpora.

Fig.1 - Leeres AntConc

Automatische und händische Arbeitsschritte

Bevor mit AntConc gearbeitet werden kann, müssen einige händische Arbeitsschritte durchlaufen werden. Zunächst muss ein Untersuchungskorpus erstellt und eingespeist werden; im Programm gibt es kein automatisch inhärentes Korpus. Bei der Durchführung einer Keyness-Analyse [Der Keyness-Wert ist eine statistische Bewertung, inwieweit ein oder mehrere Begriffe in einem Text als Schlüsselworte, also als für den Text ausschlaggebend, hervortreten. Keyness-Analysen funktionieren über einen Referenzkorpus, der mit dem zu untersuchenden Text in Beziehung gesetzt wird. Vgl. Abschnitt 2.2.7.] muss außerdem zusätzlich ein passendes Referenzkorpus gefunden und eingespeist werden. Falls nötig, müssen für die zu laufenden Analysen die richtigen Global Settings, sowie eventuell auch bestimmte Tool Preferences eingestellt werden – je nachdem, welche Zielführung vorgesehen ist. Außerdem können bei Untersuchungen mit dem Word List Tool selbst erstellte Lemmalisten in die Tool Preferences oder eigene Suchbegrifflisten in das Advanced Search Panel eingegeben werden.

AntConc v.3.2.4 zählt automatisch die Types und Tokens im eingespeisten Korpus und erstellt eine Wörterliste aller dort vorhandenen Wörter.

Alle Ergebnisse der Analysen müssen hinterher selbständig gespeichert werden, AntConc enthält weder eine zeitlich automatische Speicherung, noch einen Zwischenspeicher. Die zu sichernden Ergebnisse müssen manuell über File > Save Output To Text File im txt-Format gespeichert oder über die Zwischenablage woanders eingefügt werden.

Art der Analyse

AntConc v.3.2.4 als erweitertes Konkordanzprogramm ist nicht in der Lage, eine Reihe von automatischen Arbeitsschritten zu erledigen, die man z.B. bei CATMA vorfinden kann. AntConc eignet sich nicht für Parsing, Lemmatisierung, POS-Tagging, Erfassung von syntaktischen Strukturen und es enthält auch keine Möglichkeit zum semantischen Tagging oder zur Annotation.

Die sieben Karteireiter des Programms (vgl. Fig.1) zeigen jedoch die anderen unterschiedlichen Möglichkeiten, inwieweit mit diesem Tool gearbeitet werden kann. Alle Analysen, die mit AntConc v.3.2.4 durchgeführt werden, sind quantitativ.

Concordance Tool

Das Concordance Tool zeigt die Konkordanzen eines Suchbegriffes im eingespeisten Korpus im KWIC- (KeyWord In Context-) Format an. Suchwörter und –phrasen können so in ihrem Kontext betrachtet werden. Durch die Suchoption Case wird die Suche auf Groß- oder Kleinschreibung bedingt. Regex sucht gezielt nach Regular Expressions. Unter Tool Preferences können weitere Einstellungen des Concordance Tools vorgenommen werden, wie z.B. das Ausblenden des Suchbegriffs aus der KWIC-Darstellung oder andere Display-Möglichkeiten.

Fig.2 - Concordance Tool mit einer Beispielanalyse

Die Ergebnisse einer Concordance-Untersuchung sind tabellarische Rohdaten, die innerhalb des Programms im KWIC-Format nach ihrem Auftauchen im Korpus chronologisch sortiert sind (vgl. Fig.2). Ebenfalls wird der Dateipfad angegeben. Über KWIC-Sort können diese Ergebnisse mit ihrem rechts oder links befindlichem Kontext farblich vom restlichen Text abgesetzt werden. Ebenfalls kann über Search Window Size der Kontext der Ergebnisse vergrößert werden.

Concordance Plot Tool

Das Concordance Plot Tool generiert dieselben Ergebnisse wie das Concordance Tool, visualisiert diese jedoch im Barcode-Format. Dies ermöglicht einen direkten Überblick der Suchbegriffe im Verlauf ihres jeweiligen Korpusteils, in dem sie vorkommen, wie ebenso auch einen ersten Blick über mögliche Search Term Cluster im Korpus. Auch hier gibt es die Möglichkeit, die Suchoptionen nach Case oder Regex einzustellen.

Fig.3 - Concordance Plot Tool mit einer Beispielanalyse

Die Ergebnisse einer Untersuchung mit dem Concordance Plot Tool (vgl. Fig.3) sind Barcode-Visualisierungen, die nach Belieben unter Zoom vergrößert werden können. Zusätzlich wird die Anzahl der Ergebnisse pro txt-Datei des eingespeisten Korpus angegeben, sowie die jeweilige txt-Dateigröße in Gesamt-Buchstabenanzahl.

File View Tool

Das File View Tool zeigt die Anzahl eines Suchbegriffs im Volltext in einer bestimmten Datei des Korpus an. Hier ist es ebenfalls möglich, eine Suche wie bei den vorherigen Tools zu starten.

Fig.4 - File View Tool mit einer Beispielanalyse

Die Ergebnisse im File View Tool (vgl. Fig.4) werden schwarz hervorgehoben in ihrem Volltext angezeigt. Über Hit Location kann von Ergebnis zu Ergebnis gesprungen werden.

Clusters Tool / N-Grams Tool

Das Clusters Tool zeigt je nach Sucheinstellung Wortgruppenlisten statt einzelner Wörter im eingespeisten Korpus auf. Diese Listen können nach der Frequenz ihres Auftretens im Korpus, nach Wortanfang oder auch nach dem Wortende geordnet werden. Es ist ebenfalls möglich, sie über Sort by Prob nach der Wahrscheinlichkeit des Auftauchens des ersten Wortes vor den restlichen im Ergebnis zu sortieren. Case und Regex sind auch hier wieder wählbare Suchoptionen, außerdem kann die zu suchende Clustergröße selbständig nach Bedarf eingestellt werden. Das Clusters Tool bietet auch die Einstellung einer minimalen Clusterfrequenz, sowie eine links- oder rechtsvariierbare Search Term Position.

Fig.5 - Clusters Tool mit einer Beispielanalyse

Die Ergebnisse einer Clustersuche (vgl. Fig.5) werden als tabellarische Rohdaten innerhalb des Programms ausgegeben, beispielsweise als Frequenzen oder Wahrscheinlichkeiten, und können von hohem Ergebniswert zu niedrigem Ergebniswert oder umgekehrt sortiert werden. AntConc v.3.2.4 berechnet bei Benutzung des Clusters Tools automatisch die Gesamtzahl an Cluster Tokens und Cluster Types.

Durch Anklicken des N-Grams-Kästchens kann mithilfe des Clusters Tools vom N-Grams Tool Gebrauch gemacht werden. AntConc sucht auf diese Weise innerhalb des eingespeisten Korpus Cluster der Größe n, sodass gebräuchliche Ausdrücke schnell zu erkennen sind. Für das N-Grams Tool gilt eine kürzere Menge an Suchoptionen als beim Clusters Tool, die restlichen nun nicht mehr geltenden Möglichkeiten werden grau unterlegt. Jedoch kann eine minimale und maximale N-Gram Size ausgewählt werden.

Fig.6 - N-Grams Tool mit einer Beispielanalyse

Die Ergebnisse einer N-Grams-Suche (vgl. Fig.6) werden als tabellarische N-Grams innerhalb des Programms ausgegeben, die nach Frequenz oder Wahrscheinlichkeit sortiert werden können. Auch hier errechnet AntConc die Gesamtzahl an N-Grams Tokens und N-Grams Types.

Collocates Tool

Das Collocates Tool zeigt die Kollokationen eines Suchbegriffs im eingespeisten Korpus an. Auf diese Weise ist es möglich, Wortmuster zu erkennen, die nicht durch die bloße Untersuchung von Wortabfolgen zu erkennen sind. Bei diesem Tool ist die Möglichkeit gegeben, nicht nur die direkten Nachbarwörter links und rechts vom Suchbegriff abzurufen. Stattdessen bietet die Funktion Window Span eine beliebige, selbst zu wählende Größe an Wortmengen, die rechts und links des Search Terms von AntConc heraus gefiltert werden sollen. Wie bereits beim Clusters und N-Grams Tool kann auch hier eine Mindestanzahl an Kollokationsfrequenzen gefordert werden. Unter Tool Preferences können für das Collocates Tool diverse Display Options angeklickt werden, um die Analyse einsträngig oder differenziert laufen zu lassen. Ebenfalls ist unter den Einstellungen die statistische Collocate Measure auswählbar: Die beiden Optionen sind hier MI (MI wird von AntConc automatisch auf default gestellt) oder T-Score. Diese untersuchen, wie weit der Suchbegriff mit einer Kollokation in Beziehung steht: Je höher der Ergebniswert, desto wahrscheinlicher ist das Auftreten der Kollokation im eingespeisten Korpus.

Fig.7 - Collocates Tool mit einer Beispielanalyse

Die Ergebnisse einer Kollokationsanalyse (vgl. Fig.7) werden als tabellarische Rohdaten innerhalb des Programms ausgegeben. Diese Kollokationen können, wie bei den anderen Tools auch, nun nach Belieben sortiert werden, so z.B. nach genereller Häufigkeit im Korpus, nach links- oder rechtsseitiger Frequenz des Suchbegriffs zur Kollokation oder nach dem statistischen Wert ihrer Beziehung zueinander. Das Collocates Tool generiert automatisch die Gesamtzahl von Collocate Tokens und Collocate Types.

Word List Tool

Das Word List Tool dient zur Zählung, Auflistung und Sortierung aller im eingespeisten Korpus vorkommenden Wörter. So ist beispielsweise schnell ersichtlich, welche Begriffe die häufigsten und welche die seltensten sind. Auch hier gibt es wieder die üblichen Suchoptionen. Allerdings ist es nun auch möglich, alle Ergebnisse als kleingeschrieben, als Lower Case, zu behandeln. Innerhalb der Wortliste kann zwischen den einzelnen Ergebnissen der Begriffssuche hin und her gesprungen werden. Das Word List Tool hat eine Reihe an zusätzlichen Einstellungen, die unter Tool Preferences vorgenommen werden können. So gibt es außer den bereits bekannten Display und Case Options hier die Option, eigene Lemmalisten oder Wortlisten einzuspeisen, bzw. die Möglichkeit, nach Bedarf Wortlisten selbst zu generieren.

Fig.8 - Word List Tool mit einer Beispielanalyse

Die Ergebnisse im Word List Tool (vgl. Fig.8) werden als tabellarische Rohdaten innerhalb des Programms ausgegeben und können nach (umgekehrter) Häufigkeit, Wortanfang oder Wortende sortiert werden.

Keyword List Tool

Das Keyword List Tool wird mit einem zusätzlich einzuspeisenden Referenzkorpus verwendet und zeigt im statistischen Vergleich mit diesem, inwieweit bestimmte Begriffe des eigenen Korpus besonders häufig oder besonders selten vorkommen. Dieses Tool erlaubt daher die Herausarbeitung von Schlüsselbegriffen. Abgesehen von den bereits bekannten Suchoptionen gibt es wie beim Word List Tool unter den Tool Preferences (siehe Fig.9) einige zusätzliche Einstellungen.

Fig.9 - Keyword List Tool Preference Panel

Unter Keyword Generation Method kann zwischen den statistischen Maßen Log-Likelihood (AntConc stellt Log-Likelihood automatisch auf default) und Chi Squared - Hier wäre ich als Leser auch überfragt. Vielleicht beides ganz kurz erklären oder eine Erklärung verlinken? ausgewählt werden, die für die Keyness-Analyse nötig sind. Unter Threshold Value kann eingestellt werden, ab wann ein Wort des eigenen Korpustextes als Schlüsselbegriff bezeichnet wird. Es ist daher z.B. auch möglich, nur die ersten und damit wichtigsten 100 Schlüsselbegriffe anzeigen zu lassen, auch wenn vielleicht noch weitere folgen. Unter Anklicken von Show Negative Keywords werden alle Wörter des Korpus gelistet, die eine ungewöhnlich niedrige Keyness aufzeigen. Unter Reference Corpus Options kann schließlich ein vorher ausgewählter Referenzkorpus oder eine Wortliste des Referenzkorpus eingespeist werden.

Fig.10 - Keyword List Tool mit einer Beispielanalyse von Laurence Anthony

Die Ergebnisse einer solchen Keywordliste (vgl. Fig.10) werden als tabellarische Rohdaten innerhalb des Programms ausgegeben. Das Tool sortiert by default zunächst nach Keyness, die Ergebnisse können allerdings auch anders sortiert werden, beispielsweise nach Häufigkeit, alphabetisch oder nach Wortende der Schlüsselbegriffe. Die Keyness-Ergebnisse werden je nach vorhergegangener Wahl als Log-Likelihood- oder Chi Square-Werte ausgegeben.

Zusätzliche Möglichkeiten des Programms

AntConc bietet abgesehen von den bereits genannten Eigenschaften noch weitere Optionen zur Analyse von Texten und Korpora. Alle einzelnen Tools haben zusätzlich eine Advanced Search Option, die angewählt werden kann (vgl. Fig.11).

Fig.11 - Advanced Search Panel

So ist es möglich, nicht nur einen Suchbegriff, sondern eine Liste von mehreren Begriffen in die Advanced Search einzuspeisen und dann zu verwenden. Über Context Words kann eine Kombinationssuche dieser Liste mit weiteren Begriffen gestartet werden, die mit den Wörtern aus der Liste in Beziehung stehen. Wie weit die Begriffe der Liste mit den Context Words in Verbindung stehen sollen, kann über den Context Horizon näher definiert werden.

Über die Global Settings (vgl. Fig.12) kann unter Tag Settings eingestellt werden, ob Tags, die bereits im eingespeisten Text oder Korpus enthalten sind, angezeigt werden sollen oder nicht.

Fig.12 - Tag Setting Panel

Es ist ebenfalls möglich, im Concordance Tool, Concordance Plot Tool und File View Tool eine Tag-Suche durchzuführen.

Alle Begriffssuchen in allen Tools können mit Wildcards durchgeführt werden. Unter Global Settings > Wildcard Settings können diese definiert werden. Unter Token (Word) Definition ist es dem User möglich, selbst zu definieren, was AntConc in seinen Analysen als Token anzeigen soll. Unter Language Encodings kann die richtige Spracheinstellung für die zu untersuchenden Texte gewählt werden. AntConc kann so Daten jeder Sprache bearbeiten.

Jedes Tool hat in seinem Hauptfenster eine Save Window-Option (vgl. Fig.1). Durch diese Option kann die gegenwärtige Untersuchung gespeichert und eine neue gestartet werden, ohne dass die ersten Ergebnisse verloren gehen. AntConc transferiert die Ergebnisse in tabellarische Form (vgl. Fig.13).

Fig.13 - Save Window Panel

Diese Fenster werden allerdings nicht automatisch als txt-Datei auf der Festplatte gespeichert, ein solcher Befehl muss manuell geschehen. Wird eine AntConc-Sitzung geschlossen, schließen auch die Ergebnisfenster.

AntConc bietet mehrere Tastenkombinationen als Shortcuts, um das Navigieren durch das Programm und das Ausführen von Befehlen zu erleichtern. Eine Liste dieser Shortcuts befindet sich in der passenden Read-me Datei, die der jeweiligen Betriebssystemsversion von Ant-Conc zugehört.

Falls bestimmte AntConc-Settings Schwierigkeiten bereiten sollten, kann das Programm über File > Restore Default Settings wieder zu seinen Anfangssettings zurück gestellt werden.

Daten-Einspeisung

Um mit AntConc v.3.2.4 zu arbeiten, müssen die zu analysierenden Texte oder Korpora im TXT, XML oder HTML-Format vorliegen; hierbei kann es sich um Einzeltexte handeln, wobei auch ganze Datensätze hochgeladen werden können. Es ist nicht nötig, dass das Analysematerial vorannotiert ist. AntConc verwendet keinerlei Metadaten-Markup. Es ist nicht bekannt, ob eingespeiste oder einzuspeisende Texte eine gewisse Größe nicht überschreiten dürfen. Für Untersuchungen mit einem Referenzkorpus muss ein solches selbst hochgeladen werden, da das Programm keines enthält. AntConc v.3.2.4 gibt bei der Erstellung eigener Korpora jedoch keine Hilfestellung.

Benutzerfreundlichkeit

AntConc richtet sich in erster Linie an Korpuslinguist_innen und Literaturwissenschaftler_innen mit keinen oder nur geringen Programmierkenntnissen, ist also definitiv für wissenschaftliche und weniger für rekreative Zwecke zu verwenden. Zweitens ist AntConc für den Gebrauch in Klassenzimmern und Kursräumen zum Spracherwerb und -training kreiert worden. So sagt Anthony:

[…] learners can use corpora to investigate for themselves the way that language is used in target contexts, in a so-called ‘data-driven’ approach to learning. This can be particularly effective in the technical writing classroom, as the learners are often from a variety of different fields each with its own set of characteristic language features.

Anthony weist ebenfalls darauf hin, dass sich viele Konkordanz- und Korpusanalyseprogramme aufgrund von Interface und Unübersichtlichkeit für Neueinsteiger als zu schwierig erweisen und er kritisiert: „[…] they have tended to be aimed at researchers […].“ AntConc erweist sich im Kontrast dazu nun als äußerst benutzerfreundlich und sticht durch seine simple und leicht verständliche Handhabung hervor. Das Interface unterscheidet nicht zwischen Beginners- oder Advanced-Modus, hat allerdings bei allen Tools die o. g. Advanced Search-Möglichkeit. AntConc v.3.2.4 ist gut zugänglich, klar strukturiert und erfordert keine Programmierkenntnisse. Dies macht es auch für Neueinsteiger auf dem Gebiet der Korpuslinguistik nutzbar. Für Fortgeschrittene gibt es die Tastatur-Shortcuts zum effizienteren Bedienen. Allerdings müssen alle Arbeitsschritte in ihrem Ablauf innerhalb des Tools selbständig erdacht werden: Ungleich CATMA besitzt AntConc keine Möglichkeit, sich von einer Art Work Assistant chronologisch durch die einzelnen Analyseschritte hindurch leiten zu lassen. Das Programm hat keine aufrufbare installierte Hilfe inne, dafür existiert stattdessen eine ganze Reihe an Hilfsmitteln, die anderweitig bei der Verwendung von AntConc hinzugezogen werden können: Auf YouTube wurden von Laurence Anthony mehrere Tutorials zur Benutzung der einzelnen Tools hochgeladen. Diese Tutorials sind ebenfalls in schriftlicher Form in Englisch, Japanisch, Koreanisch, Chinesisch und Deutsch einsehbar. Dazu kommt ein ausführliches Read-me, das alle wichtigen Fähigkeiten von AntConc auflistet und in ihrer Verwendung beschreibt, sowie eine Help Section auf der AntConc-Homepage. Es gibt außerdem die Möglichkeit, einer AntConc Google Group beizutreten, in der Probleme und generelle Dinge diskutiert werden können. Ebenfalls gibt die Read-me Datei (Literatur-) Hinweise zum Nachschlagen von bestimmten Problemen, wie z.B. zur Verwendung der Regex-Funktion für Neueinsteiger.

Transparenz

AntConc v.3.2.4 zeichnet sich durch eine hohe Transparenz aus. Die Read-me Datei benennt das Programm mit dem AntConc geschrieben wurde (in Pearl mithilfe von ActiveState’s PearlApp Compiler). Für das Collocates Tool wird angegeben, welche Literatur verwendet wurde, um die Gleichungen der statistischen Maße MI (Mutual Information) und T-Score in AntConc einzuprogrammieren. Alle vorhergegangenen Versionen von AntConc sind über die Homepage herunterladbar, dazu zeigt die Read-me Datei den genauen Entwicklungsverlauf (= Revision History) des Programms seit seiner Entstehung auf. Bugs oder bereits bekannte Probleme, die sich nicht beheben lassen, haben ebenfalls in der Read-me Datei eine eigene Unterkategorie. Alles in allem erweist sich AntConc v.3.2.4 jedoch als sehr stabil.

Anthony weist ausdrücklich darauf hin, dass neue Vorschläge zur Gestaltung und Verbesserung seines Programms willkommen sind. Auch bei auftretenden Bugs oder Fragen ist Anthony sowohl durch Email, als auch durch den regulären Postweg zu erreichen. Eine Auflistung aller bald kommenden Änderungen ist über die Homepage ersichtlich. Zusätzlich zu allen Informationen gibt die Read-me Datei ausdrücklich Angaben zur rechtlichen Situation, wie mit der AntConc Software verfahren werden darf. Dazu kann ihr entnommen werden, woher das Support Funding für die Entwicklung von AntConc kommt. Über die Homepage bietet Laurence Anthony auch viele Informationen über sich selbst.

Fazit

AntConc, als quantitatives Tool und in der Lage, große Testmassen auf statistische Werte, Frequenzen und Konkordanzen zu untersuchen, ist daher fähig, Kookurenzanalysen, Frequenzanalysen, Keyness-Analysen und Kontingenzanalysen durchzuführen. Das bedeutet jedoch auch, dass komplexere und differenziertere Analysen, die z.B. syntaktische Strukturen betreffen, mit AntConc nicht operationalisierbar sind. Handlungsanalysen, Intensitätsanalysen etc. – all das ist mit AntConc nicht möglich.

Im direkten Vergleich mit Tools wie CATMA oder WMatrix stellt sich das Programm als sehr simpel und übersichtlich heraus. Es gibt für die errechneten Ergebnisse nur wenige Visualisierungsarten (ganz im Gegensatz zu einem Tool wie Voyant, dass mit einer Fülle von unterschiedlichsten Darstellungsdesigns für Ergebnisse besticht). Dafür erweist sich AntConc als ausgesprochen transparent in der Programmierung und als sehr motivierend im Bereich User-Kritik und Verbesserungsvorschläge (im Gegensatz zu DiLemmata). Durch die einfache Handhabung und die breit angelegten Hilfeoptionen bietet das Programm gute Arbeitsbedingungen für Neueinsteiger und durch Advanced Features und Tool Options hohen wissenschaftlichen Anspruch für Fortgeschrittene. Ein großes Plus ist hier auch mit Sicherheit die Stabilität des Programms und die Tatsache, dass aufgrund des variablen Language Encodings Korpora jeder Sprache verarbeitet werden können. Das Tool ist also nicht nur für englische oder deutsche Texte ausgerichtet.

Das Verhältnis von manuellem und automatischem Zeitaufwand spricht bei AntConc definitiv für das Tool. Solange mit bereits vorgefertigten Korpora gearbeitet werden kann, erledigt das Programm die statistische, frequenzanalytische oder konkordanzanalytische Erfassung riesiger Korpora in kürzester Zeit. Dafür sind jedoch die Möglichkeiten des Tools beschränkt. Um an komplexeren Fragestellungen zu arbeiten, ist die Wahrscheinlichkeit hoch, dass mindestens ein weiteres Tool hinzugezogen werden muss.

Der Interpretationsspielraum von Untersuchungsergebnissen ist ambivalent zu betrachten. Einserseits werden in den Berechnungen klare und eindeutige Zahlen geliefert, deren mathematische Basis in der Read-me Datei teilweise nachgeschlagen werden kann, was dem User auf jeden Fall ein Gefühl von Datenzuverlässigkeit gibt. Andererseits liegt es dann bei den Forschenden, kühl errechnete Werte zu Interpretationen zu verwandeln. Allerdings sind selbstverständlich interpretative Problemsituationen wie möglicherweise subjektives semantisches Tagging bei AntConc nicht existent, da das Programm darauf nicht ausgelegt ist.

Oberflächenstrukturelle Fragen sind sicherlich besser für quantitativ arbeitende Tools wie AntConc geeignet, da so vor allen Dingen bei großen Textkorpora eine raschere Einschätzung des zu untersuchenden Phänomens durchgeführt werden kann. Die Indikatoren sind hier messbarer, objektiver, die Ergebnisse zuverlässiger und der Umfang an bearbeitbaren Texten in einer bestimmten Zeitspanne ist im Vergleich zu qualitativ arbeitenden Tools enorm. Komplexere Untersuchungsfelder wie Spannung oder Erzählperspektive erfordern mehr Vorarbeit und einen größeren händischen Aufwand, da zur Analyse vielschichtiger Phänomene eine genau Annotation der Texte erfolgen muss, während bei einfachen Konkordanz- oder Frequenzanalysen (wie bei AntConc) bereits der Input an sich nicht sonderlich komplex ist. Tools, die differenziert und ambivalent zu betrachtende Phänomene untersuchen, geraten meines Erachtens schnell in die Gefahr, bereits bei der Programmierung subjektiven Einfluss oder Fehler erfahren zu haben. Tools, die „nur“ statistische Werte etc. berechnen, basieren auf objektiveren statistischen Algorithmen. Ebenfalls muss bei der Bearbeitung komplexer Analysen beachten werden, dass die zu bearbeitenden Texte von den Forschenden ein umfangreicheres Close Reading verlangen, um beispielsweise Ironie immer korrekt zu erkennen. Simplere Untersuchungen, wie z.B. Keyness-Analysen, können ohne Close Reading schneller Textmassen richtig erfassen und bewerten.

Auf jeden Fall zwingt die Konzeptualisierung und Operationalisierung die Forschenden zu größerer konzeptueller Schärfe und Konsistenz. Je diffiziler eine zu operationalisierende Aufgabe ist, desto mehr muss sie in ihrem gesamten Kontext gesehen werden. Sie erfordert einen höheren Zeitaufwand und eine genauere Überlegung dessen, was Ziel und Durchführungsart sein soll – allein schon aufgrund der Tatsache, dass, sollte sie in ihrem Konzept nicht genau durchdacht sein und sich im Verlaufe etwas als fehlerhaft oder falsch erweisen, die ganze Arbeit verworfen und neu begonnen werden muss. Vor allem bei umfangreichen, detailreichen und differenzierten Untersuchungen (ein meines Erachtens herausragendes und faszinierendes Beispiel für eine umfangreiche Analyse ist die Quantitative Analysis of Culture, durchgeführt von Michel et.al., 2010) kann es schnell geschehen, dass sich die Forschenden ohne eine exakte Konzeptualisierung der Vorgehensweise irgendwann mit der Analyse im Kreis drehen, sich in Nichtigkeiten verstricken und das Ziel schließlich verfehlt wird. Auf jeden Fall, um Rommel (2004) zuzustimmen, ist das wichtigste Ziel der Computer-gestützten Analyse nicht unbedingt die Hervorbringung bahnbrechender Ergebnisse in der Analysierung von z.B. Fontanes Werken, sondern eine praktikable Methode und Vorgehensweise zu finden die sich als sinnvoll anwendbar erweist, um einen literarischen Text zu untersuchen. Die Arbeit mit AntConc scheint weniger konzeptuelle Schärfe zu verlangen, als möglicherweise andere, komplexere Tools. Es wird keine bis kaum Vorarbeit verlangt und die Ergebnisse, weil einfach nur statistische Daten, bergen keinen Anreiz, durch mögliche offensichtliche Fehler, das eigene Konzept zu hinterfragen. Tools, die z.B. ein automatisches semantisches Tagset innehaben und in ihrer Ausführung Fehler offenbaren, weisen automatisch in ihrer Fehlerhaftigkeit darauf hin, dass der Fehler auch beim eigenen Konzept liegen könnte. Wenn die Ergebnisse allerdings nur aus einem Berg an Zahlen besteht, ist die Chance möglicherweise geringer, Fehler zu vermuten. Andererseits sollte jedoch genau diese Gleichgültigkeit erst als Warnung und dann als Motivation gesehen werden, sich zu größerer konzeptueller Schärfe zu zwingen.

Die Nützlichkeit und Wichtigkeit eines solchen Tools wie AntConc kann und sollte meines Erachtens nach der oben genannten Darstellung seiner Features nicht mehr infrage gestellt werden. Die Computer-gestützte quantitative (und qualitative) Analyse von Texten bietet, und da stimmte ich Rommel (2004) in jeder Hinsicht zu, einen unmäßigen Pool an neuen Möglichkeiten, Texte zu verarbeiten – vor allem in einer technologisch rasant voranschreitenden Zeit wie der unseren, in der der Zugriff auf riesige Textkorpora vereinfacht ist, Computer immer größere Arbeitskapazitäten vorweisen und simple und gute Software wie AntConc auch für Laien verständlich geworden ist.

Beispielanwendung

Hypothese

Italienische Migrationsliteratur in Deutschland unterscheidet sich in ihren Hauptbegriffen von der türkischen Migrationsliteratur in Deutschland. Beide Bereiche umkreisen zwar in etwa die gleichen Themengebiete wie Fremdheit, Heimatlosigkeit etc., tun das aber auf unterschiedliche Art und Weise. Italien und die Türkei unterscheiden sich voneinander durch gewisse Merkmale, z.B. durch ihre unterschiedliche geographische Nähe zu Deutschland, ihre unterschiedliche historische Nähe zu Deutschland (z.B. die Rolle Italiens während des 2. Weltkrieges), durch ihre unterschiedlichen wirtschaftlichen Hintergründe, ihre unterschiedlichen kulturellen Hintergründe (Italien war eher zur „europäischen“ Kultur ausgerichtet, während sich die Türkei jahrhundertelang eher zum Orient ausgerichtet hatte), sowie außerdem durch ihren unterschiedlichen religiösen Hintergrund (Katholizismus vs. Islam). Aus diesen Punkten wird geschlossen, dass sich auch die Ausprägung beider Kulturen in der Migrationsliteratur in Deutschland unterschiedlich verdeutlicht.

Aufgabenbeschreibung

Es soll nun mithilfe von AntConc Aufgabe sein, Hilfestellung zur Belegung oder Widerlegung der genannten Hypothese zu leisten. Dafür soll zunächst mit AntConc untersucht werden, welche Begriffe in der türkischen Migrationsliteratur besonders häufig vorkommen; als zweites wird untersucht werden, welche Begriffe in der italienischen Migrationsliteratur besonders häufig vorkommen. Die wichtigsten Schlüsselbegriffe sollen dann verwendet werden, um zunächst die eine, dann die andere Literatur näher zu untersuchen: Es sollen die kontextuellen Nachbarbegriffe der Schlüsselwörter analysiert werden um herauszufinden, ob vielleicht Heimat (ein potenzielles Schlüsselwort) in türkischer Literatur anders konnotiert wird, als in italienischer Literatur in Deutschland.

Vorgehensweise

Als Erstes werden das italienische und das türkische Migrationskorpus getrennt zusammengestellt und in einem für AntConc verwertbaren Dateiformat gespeichert. Dieses geschieht entweder über bereits vorhandene Korpora oder über manuelle Arbeit. Annotationen werden nicht gemacht. Ein angemessenes Referenzkorpus deutscher Literatur des 20. Jahrhunderts wird ausgewählt oder muss ebenfalls zusammengestellt werden und wird in einem für AntConc verwertbaren Dateiformat gespeichert.

Es wird beispielsweise zuerst mit der Untersuchung des türkischen Migrationsliteraturkorpus begonnen. Dafür wird das Korpus über File > Open File(s) in AntConc eingespeist. Über Tool Preferences > Keyword List (vgl. Fig.9) wird die Einspeisung eines Referenzkorpus begonnen. Unter Keyword Generation Method muss sich für eine der beiden Möglichkeiten (Log-Likelihood oder Chi Squared) entschieden werden. Threshold Value wird auf All Values eingestellt, damit der größtmögliche Überblick zustande kommt. Über Reference Corpus Options wird das Korpus nun eingeladen. Es muss entschieden werden, ob das Korpus als ganzes oder eine bereits vorher zusammengestellte Wörterliste verwendet wird – dementsprechendes wird angeklickt. Über Choose Files wird nun der Referenztext eingespeist und über Apply bestätigt. Die Untersuchung wird nun mit Klicken auf Start begonnen. AntConc springt zunächst automatisch zum Word List Tool (vgl. Fig.8) und generiert eine Wörterliste, um dann wieder zum Keyword List Tool zurückzuspringen. Es werden direkt die ersten Ergebnisse der Migrationsliteraturanalyse angezeigt: AntConc erbringt die Schlüsselwörter des Korpus türkischer Migrationsliteratur im statistischen Vergleich zum Referenzkorpus und zeigt deren Keyness und Frequenz an. Mit diesen Schlüsselwörtern kann nun weitergearbeitet werden. Die Ergebnisse sind im Keyword List Tool automatisch nach Keyness sortiert. Durch Klicken auf Save Window oder über File > Save Output To Text File können diese ersten Ergebnisse gespeichert werden.

Die nun darauf folgende Untersuchung des italienischen Migrationsliteraturkorpus verfährt auf die gleiche Weise, die daraus sich ergebenden Schlüsselwörter werden ebenfalls über File > Save Output To Text File gespeichert.

Es wird nun manuell eine Liste aller in beiden zu untersuchenden Literaturkorpora relativ gleich ungewöhnlich hohen Schlüsselbegriffe zusammengestellt. Dieses sind beispielsweise fremd, Fremde, Heimat, deutsch und wir.

Als zweites soll nun eine Clusteranalyse durchgeführt werden, um diese Begriffe jeweils im Kontext ihres jeweiligen Korpus näher zu betrachten. Es wird z.B. nun zunächst mit diesen Begriffen im Kontext der türkischen Migrationsliteratur begonnen. Hierfür wird dieses Korpus als Ausgangskorpus wie o. g. eingespeist. Das Clusters Tool (vgl. Fig.5) wird aufgerufen. In die Suchleiste wird das erste Schlüsselwort eingegeben, z.B. Heimat. Über Cluster Size wird die zu suchenden Clustergrößen festgelegt, z.B. Min. Size 2 und Max. Size 5. Die Analyse wird gestartet. AntConc erbringt nun eine Reihe an häufigen Clustern, die Heimat als Mittelpunkt haben und die dem Wort diverse Attribute zuschreiben, z.B. alte H., verlorene H., zurück in die H. etc. Die Ergebnisse werden wie o. g. gespeichert.

Eine solche Clusteranalyse kann nun für alle Schlüsselwörter durchgeführt werden, sowohl mit dem türkischen, als auch mit dem italienischen Migrationsliteraturkorpus. Auf diese Weise werden also die hervorstechendsten Begriffe beider Korpora hervorgebracht und können durch Clusteranalysen mit ihren Nachbarwörtern in Beziehung gesetzt und dann schließlich außerhalb von AntConc manuell interpretativ im Verhältnis türkischer zu italienischer Migrationsliteratur bewertet werden. So kann AntConc dabei helfen, Unterschiede und Ähnlichkeiten beider Literaturen gegeneinander abzusetzen.

Kritische Diskussion

AntConc soll natürlich bei einer derartigen Untersuchung nur Hilfestellung leisten und keine absoluten Ergebnisse liefern. Zwar können statistische Werte, die mathematisch korrekt sind, problemlos und in kürzester Zeit errechnet werden; wie diese allerdings in einer anschließenden Interpretation behandelt werden, unterliegt immer noch den subjektiven Überlegungen der forschenden Person. Problematisch wird die Analyse, wenn in Betracht gezogen wird, dass hier nur nach explizit genannten Schlüsselbegriffen und deren kontextueller Umgebung gesucht wird. Wenn nun allerdings Wörter wie Heimat oder deutsch umschrieben oder gar metaphorisiert werden, findet AntConc sie auf diese Weise nicht und kann sie dementsprechend auch nicht in statistische Berechnungen mit einbeziehen. In solchen Situationen müssen alle Texte der Korpora nach der Keyness-Analyse manuell auf Metaphern und Umschreibungen annotiert werden. Hier wäre es sinnvoll, mit einem anderen Tool, beispielsweise CATMA, weiterzuarbeiten.

Der reale Zeitaufwand einer solchen wie oben beschriebenen Untersuchung von Migrationsliteratur würde sich immens gestalten, da allein die Erstellung der benötigten Korpora ein großes Unterfangen ist. In diesem oben durchgeführten Fall ist der manuelle Arbeitsfaktor ein weitaus größerer, als der von AntConc automatisch geleistete. Es müsste bei einem ernsthaften Analyseverfahren in Kombination mit einem Tool gearbeitet werden, das die Erstellung großer Textmassen erleichtert oder bestimmte zeitaufwendige Aufgaben abnehmen kann. Denkbar wäre bei einer solchen Analyse außerdem die Einbeziehung eines Tools wie WMatrix, da die dort vorhandene Möglichkeit einer Emotionsanalyse sicherlich bei so einer stark emotional aufgeladenen Thematik wie Migration überaus aufschlussreich wäre.

Es wäre sicherlich auch denkbar, eine solche Frequenz- und Keyness-Analyse in beispielsweise türkischer Migrationsliteratur nur im Vergleich zwischen den unterschiedlichen Schlüsselbegriffen der ersten und zweiten Generation durchzuführen, um mögliche Unterschiede in der Betrachtungsweise von älteren türkischen Autor_innen in Deutschland und den jungen, in Deutschland geborenen türkisch-kulturellen Autor_innen herauszuarbeiten.

Literatur

Weblinks

  1. AntConc Homepage
  2. AntConc Read-me Datei (PDF)
  3. Homepage von Laurence Anthony

Printmedien

  1. Anthony, Laurence (2005): AntConc: Design and development of a freeware corpus analysis toolkit for the technical writing classroom, Professional Communication Conference, 2005. IPCC 2005. Proceedings. International, pp. 729-737.
  2. Anthony, Laurence (2005): AntConc: A Learner and Classroom Friendly, Multi-Platform Corpus Analysis Toolkit, Proceedings of IWLeL 2004: An Interactive Workshop on Language e-Learning, pp. 7-13.
  3. Anthony, Laurence (2006): Concordancing with AntConc - An Introduction to Tools and Techniques in Corpus Linguistics, Proceedings of the JACET 45th Annual Convention, pp. 218-219.
  4. Anthony, Laurence (2006): Concordancing with AntConc: An Introduction to Tools and Techniques in Corpus Linguistics (Summary of JACET 2006 workshop), JACET Newsletter, Issue: 155, pp. 208.
  5. Anthony, Laurence (2008): From Language Analysis to Language Simplification with AntConc and AntWordProfiler (Summary of JAECS 2008 workshop), JACET Newsletter, Issue: 63, p. 2.
  6. Chiellino, Carmine (Hg.) (2000): Interkulturelle Literatur in Deutschland. Ein Handbuch, Stuttgart/Weimar 2000.
  7. Michel, Jean-Baptiste et al. (2011): „Quantitative Analysis of Culture Using Millions of Digitized Books”, in: Science 331, S. 176-182.
  8. Rommel, Thomas (2004): „Literary Studies“, in: Susan Schreibman et. al. (Hgg.): A Companion to Digital Humanities, Oxford.

References