WMatrix

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche
Unser LitRe-Wiki ist seit 2012 nicht eingreifend überarbeitet worden. Es bildet also den damaligen Stand ab. Um Weiterentwicklungen der digitalen Textanalyse abzubilden, sollen nun die Artikel peu à peu überarbeitet werden, und weitere Artikel hinzukommen.

Interesse? Haben Sie Lust, einen Artikel zu überarbeiten oder neu zu verfassen? Schreiben Sie uns! Auch Kommentare, Kritik oder Fragen sind willkommen: mailto:bherrma1@gwdg.de


WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich. Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des REVERE Projekts, später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuelle Betaversion. Ein Zugang zu dem Tool ist unter http://ucrel.lancs.ac.uk/wmatrix/zu erhalten.


Allgemeine Voraussetzungen

  • WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen.
  • Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich.
  • Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt.
  • WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.

Detaillierte Beschreibung des Tools

Allgemeines

WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.

Automatische Arbeitsschritte

Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool CLAWS zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt. Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus USAS, dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien. Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface im xml-Format als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt WMatrix#Händische Arbeitsschritte beschreibt, wie diese nachträglich ins System eingespeist werden können. Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.

Analyse

Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.

Simple Interface

Simple Interface

Im Simple Interface stehen vier Analysetools zur Verfügung:

  • List of words and their frequencies

Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.

  • Word

Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt.

  • Word Cloud

Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus.

  • Semantic Tag Cloud

Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.


Advanced Interface

Advanced Interface

Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien. Damit WMatrix die Concordancen anzeigt, ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet. Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.

  • Frequency list

Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien.

  • Concordance

Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.

  • Keyness analysis

Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt WMatrix#Referenzkorpus). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert, kann jedoch leicht übersehen werden, da man bis zum Ende der Seite scrollen muss.

Inaktive Tools

Die folgenden Tools werden erst in die aktuelle Version implementiert:

  • N- & C-grams

Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links.

  • Collocation

Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.

Händische Arbeitsschritte

Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine Anleitung für die Umformung in ASCII stellt der Entwickler zur Verfügung. Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden. Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.

Referenzkorpora

Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den British National Corpus , auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.

Ausgabedaten

  • Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen.
  • Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.
  • Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.
  • Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent.

Daten-Einspeisung

WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML. Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann der zu analysierende Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit Richtlinien wird von den Entwicklern zur Verfügung gestellt. Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in Planung. Es wird kein Metadaten-Markup verwendet.

Benutzerfreundlichkeit

Allgemeine Benutzerfreundlichkeit

Die Hauptzielgruppe von WMAtrix sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich. Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.

Hilfestellungen

Eine Reihe von Hilfestellungen erhöhen die Benutzerfreundlichkeit. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons). Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist. Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.

Kreative Anwendungen

Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der National University of Singapore , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung. Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So kann man sich die Wortfrequenzen anzeigen lassen, oder durch das Erschaffen von neuen semantischen Kategorien in „My Lexicon“ einzelne semantische Bereiche erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.

Transparenz

WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.

Fazit

Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.

Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen.

Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu Di-Lemmata überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Werte, welche eine Eignung für wissenschaftliche Fragestellungen stärkt. Im Vergleich zu AntConc übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. Da für die quantitative computergestützte Textanalyse repetitive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant.

WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen. Der Entwickler stellt gerade das explorative, data-driven Vorgehen in den Vordergrund, das den Korpus als Ganzes in den Blick nimmt und empfiehlt dieses Vorgehen, um die Wissenschaft in neue Richtungen zu lenken. Oberflächenstrukturelle Fragen sind prinzipiell einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänomene wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. Die operationalisierten Kriterien sind selbst verweisen auf oberflächenstrukturelle Phänomene. Somit ist zu einer Klärung von komplexen Phänomenen eine Übersetzung auf eine oberflächenstrukturelle Ebene notwendig; diese Fragestellungen erweisen sich somit als anfälliger für Störfaktoren, da im Schritt der Operationalisierung vermehrt vereinfacht werden muss, während die Übersetzung in oberflächenstrukturelle Phänomene bei einer Fragestellung, die sich bereits auf diese Phänomene bezieht, hinfällig ist. Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.

WMatrix ist ein Programm, das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.

Beispielanwendung

Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert. Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus Versehen ihren Zwillingsbruder heiratet.

Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen.

Overused Key Concepts
Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierten semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.

Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als überrepräsentiert erfasst werden.

Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:

Female Persons
  • Erweiterung des Lexikons:

WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll.


KWIC: Woman
  • Kategorisierungen der Kontexte:

Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“). Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.


Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.

Literatur

Webseiten
-WMatrix
-Annotationsprogramm CLAWS
-Annotationsprogramm USAS
-Open Shakespear

Onlinepublikationen
-Bloginterview mit dem Entwickler
-WMatrix Vortrag
-WMatrix Literaturliste
-Anwendungsbeispiel WMAtrix