http://litre.uni-goettingen.de/api.php?action=feedcontributions&user=StephanieLeitz&feedformat=atomLiteratur Rechnen - Neue Wege der Textanalyse - Benutzerbeiträge [de]2024-03-28T17:03:05ZBenutzerbeiträgeMediaWiki 1.23.15http://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-03-15T17:12:59Z<p>StephanieLeitz: /* Literatur */</p>
<hr />
<div>[[Image: logoWM.png|200px|right|Logo WMatrix]] WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuelle Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface im xml-Format als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|right|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|right|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Damit WMatrix die Concordancen anzeigt, ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert, kann jedoch leicht übersehen werden, da man bis zum Ende der Seite scrollen muss.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann der zu analysierende Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe von WMAtrix sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Eine Reihe von Hilfestellungen erhöhen die Benutzerfreundlichkeit. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So kann man sich die Wortfrequenzen anzeigen lassen, oder durch das Erschaffen von neuen semantischen Kategorien in „My Lexicon“ einzelne semantische Bereiche erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Werte, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestützte Textanalyse repetitive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen. Der Entwickler stellt gerade das explorative, data-driven Vorgehen in den Vordergrund, das den Korpus als Ganzes in den Blick nimmt und empfiehlt dieses Vorgehen, um die Wissenschaft in neue Richtungen zu lenken. <br />
Oberflächenstrukturelle Fragen sind prinzipiell einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänomene wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. Die operationalisierten Kriterien sind selbst verweisen auf oberflächenstrukturelle Phänomene. Somit ist zu einer Klärung von komplexen Phänomenen eine Übersetzung auf eine oberflächenstrukturelle Ebene notwendig; diese Fragestellungen erweisen sich somit als anfälliger für Störfaktoren, da im Schritt der Operationalisierung vermehrt vereinfacht werden muss, während die Übersetzung in oberflächenstrukturelle Phänomene bei einer Fragestellung, die sich bereits auf diese Phänomene bezieht, hinfällig ist. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm, das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert. <br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus Versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierten semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als überrepräsentiert erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]] <br />
* Erweiterung des Lexikons:<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]] <br />
* Kategorisierungen der Kontexte:<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten. <br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Webseiten'''<br><br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]<br><br />
[http://ucrel.lancs.ac.uk/claws/ -Annotationsprogramm CLAWS]<br><br />
[http://ucrel.lancs.ac.uk/usas/ -Annotationsprogramm USAS]<br><br />
[http://openshakespeare.org/ -Open Shakespear]<br><br />
<br />
'''Onlinepublikationen'''<br><br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler] <br><br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br><br />
[http://ucrel.lancs.ac.uk/wmatrix/#apps -WMatrix Literaturliste]<br><br />
[http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ -Anwendungsbeispiel WMAtrix]<br></div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-03-15T17:11:27Z<p>StephanieLeitz: /* Literatur */</p>
<hr />
<div>[[Image: logoWM.png|200px|right|Logo WMatrix]] WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuelle Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface im xml-Format als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|right|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|right|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Damit WMatrix die Concordancen anzeigt, ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert, kann jedoch leicht übersehen werden, da man bis zum Ende der Seite scrollen muss.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann der zu analysierende Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe von WMAtrix sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Eine Reihe von Hilfestellungen erhöhen die Benutzerfreundlichkeit. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So kann man sich die Wortfrequenzen anzeigen lassen, oder durch das Erschaffen von neuen semantischen Kategorien in „My Lexicon“ einzelne semantische Bereiche erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Werte, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestützte Textanalyse repetitive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen. Der Entwickler stellt gerade das explorative, data-driven Vorgehen in den Vordergrund, das den Korpus als Ganzes in den Blick nimmt und empfiehlt dieses Vorgehen, um die Wissenschaft in neue Richtungen zu lenken. <br />
Oberflächenstrukturelle Fragen sind prinzipiell einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänomene wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. Die operationalisierten Kriterien sind selbst verweisen auf oberflächenstrukturelle Phänomene. Somit ist zu einer Klärung von komplexen Phänomenen eine Übersetzung auf eine oberflächenstrukturelle Ebene notwendig; diese Fragestellungen erweisen sich somit als anfälliger für Störfaktoren, da im Schritt der Operationalisierung vermehrt vereinfacht werden muss, während die Übersetzung in oberflächenstrukturelle Phänomene bei einer Fragestellung, die sich bereits auf diese Phänomene bezieht, hinfällig ist. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm, das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert. <br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus Versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierten semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als überrepräsentiert erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]] <br />
* Erweiterung des Lexikons:<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]] <br />
* Kategorisierungen der Kontexte:<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten. <br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br><br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]<br><br />
[http://ucrel.lancs.ac.uk/claws/ -Annotationsprogramm CLAWS]<br><br />
[http://ucrel.lancs.ac.uk/usas/ -Annotationsprogramm USAS]<br><br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler] <br><br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br><br />
[http://ucrel.lancs.ac.uk/wmatrix/#apps -WMatrix Literaturliste]<br><br />
[http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ -Anwendungsbeispiel WMAtrix]<br><br />
[http://openshakespeare.org/ -Open Shakespear]<br></div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-03-15T17:04:10Z<p>StephanieLeitz: /* Literatur */</p>
<hr />
<div>[[Image: logoWM.png|200px|right|Logo WMatrix]] WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuelle Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface im xml-Format als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|right|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|right|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Damit WMatrix die Concordancen anzeigt, ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert, kann jedoch leicht übersehen werden, da man bis zum Ende der Seite scrollen muss.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann der zu analysierende Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe von WMAtrix sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Eine Reihe von Hilfestellungen erhöhen die Benutzerfreundlichkeit. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So kann man sich die Wortfrequenzen anzeigen lassen, oder durch das Erschaffen von neuen semantischen Kategorien in „My Lexicon“ einzelne semantische Bereiche erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Werte, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestützte Textanalyse repetitive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen. Der Entwickler stellt gerade das explorative, data-driven Vorgehen in den Vordergrund, das den Korpus als Ganzes in den Blick nimmt und empfiehlt dieses Vorgehen, um die Wissenschaft in neue Richtungen zu lenken. <br />
Oberflächenstrukturelle Fragen sind prinzipiell einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänomene wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. Die operationalisierten Kriterien sind selbst verweisen auf oberflächenstrukturelle Phänomene. Somit ist zu einer Klärung von komplexen Phänomenen eine Übersetzung auf eine oberflächenstrukturelle Ebene notwendig; diese Fragestellungen erweisen sich somit als anfälliger für Störfaktoren, da im Schritt der Operationalisierung vermehrt vereinfacht werden muss, während die Übersetzung in oberflächenstrukturelle Phänomene bei einer Fragestellung, die sich bereits auf diese Phänomene bezieht, hinfällig ist. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm, das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert. <br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus Versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierten semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als überrepräsentiert erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]] <br />
* Erweiterung des Lexikons:<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]] <br />
* Kategorisierungen der Kontexte:<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten. <br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler] <br><br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br><br />
[http://openshakespeare.org/ -Open Shakespear]<br><br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]<br></div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-03-15T16:59:49Z<p>StephanieLeitz: </p>
<hr />
<div>[[Image: logoWM.png|200px|right|Logo WMatrix]] WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuelle Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface im xml-Format als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|right|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|right|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Damit WMatrix die Concordancen anzeigt, ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert, kann jedoch leicht übersehen werden, da man bis zum Ende der Seite scrollen muss.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann der zu analysierende Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe von WMAtrix sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Eine Reihe von Hilfestellungen erhöhen die Benutzerfreundlichkeit. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So kann man sich die Wortfrequenzen anzeigen lassen, oder durch das Erschaffen von neuen semantischen Kategorien in „My Lexicon“ einzelne semantische Bereiche erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Werte, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestützte Textanalyse repetitive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen. Der Entwickler stellt gerade das explorative, data-driven Vorgehen in den Vordergrund, das den Korpus als Ganzes in den Blick nimmt und empfiehlt dieses Vorgehen, um die Wissenschaft in neue Richtungen zu lenken. <br />
Oberflächenstrukturelle Fragen sind prinzipiell einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänomene wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. Die operationalisierten Kriterien sind selbst verweisen auf oberflächenstrukturelle Phänomene. Somit ist zu einer Klärung von komplexen Phänomenen eine Übersetzung auf eine oberflächenstrukturelle Ebene notwendig; diese Fragestellungen erweisen sich somit als anfälliger für Störfaktoren, da im Schritt der Operationalisierung vermehrt vereinfacht werden muss, während die Übersetzung in oberflächenstrukturelle Phänomene bei einer Fragestellung, die sich bereits auf diese Phänomene bezieht, hinfällig ist. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm, das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert. <br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus Versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierten semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als überrepräsentiert erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]] <br />
* Erweiterung des Lexikons:<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]] <br />
* Kategorisierungen der Kontexte:<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten. <br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler] </br><br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]</br><br />
[http://openshakespeare.org/ -Open Shakespear]</br><br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</br></div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-24T21:46:45Z<p>StephanieLeitz: </p>
<hr />
<div>[[Image: logoWM.png|200px|right|Logo WMatrix]] WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuelle Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface im xml-Format als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|right|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|right|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Damit WMatrix die Concordancen anzeigt, ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann der zu analysierende Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe von WMAtrix sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Eine Reihe von Hilfestellungen erhöhen die Benutzerfreundlichkeit. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So kann man sich die Wortfrequenzen anzeigen lassen, oder durch das Erschaffen von neuen semantischen Kategorien in „My Lexicon“ einzelne semantische Bereiche erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Daten, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestütze Textanalyse repetetive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen.<br />
Prinzipiell sind oberflächenstrukturelle Fragen einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänome wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm , das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.<br />
<br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierte semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als Überrepresentaiv erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]] <br />
* Erweiterung des Lexikons<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]] <br />
* Kategorisierungen der Kontexte<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.<br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler]<br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br />
[http://openshakespeare.org/ -Open Shakespear]<br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:ScheherazadeDiskussion:Scheherazade2012-02-24T21:44:11Z<p>StephanieLeitz: /* Arbeitsschritte */</p>
<hr />
<div>== Schreibstil ==<br />
<br />
Versuch, möglichst die <span style="background-color:yellow;">Ich-Form</span> sowie das Wort <span style="background-color:yellow;">man</span> zu vermeiden, damit es sich nach einem wissenschaftlichen und allgemeinen Text anhört. <br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:18, 21. Feb. 2012 (CET)<br />
: Auch diesen Satz hier " Ich gehe davon aus, dass es im stable release eine Hilfefunktion geben wird, da neben dem Button für das Control Panel ein Hilfe-Button angelegt ist." bitte allgemeiner formulieren. --[[Benutzer:Margarete Leissa|Margarete Leissa]] 21:35, 24. Feb. 2012 (CET)<br />
<br />
Mir gefällt besonders die Beschreibung des Tools. Genauer gesagt die Beschreibung der Funktionen in einer Art Anwendung erklärt wird. Das ist nicht in jedem Fall ein geeignetes Vorgehen, in diesem Fall kann man den Beischreibungen jedoch gut folgen. --[[Benutzer:StephanieLeitz|StephanieLeitz]] 16:15, 22. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
Versuch im Fazit noch einen Vergleich zu anderen qualitativen Tools herzustellen. Eventuell auch einen Vergleich zu quantitativen Tools?<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:22, 21. Feb. 2012 (CET)<br />
<br />
desambiguiert<br />
<br />
disambiguiert? --[[Benutzer:StephanieLeitz|StephanieLeitz]] 00:09, 24. Feb. 2012 (CET)<br />
<br />
Ich finde dein Fazit gut, liest sich sehr angenehm. :-)--[[Benutzer:Margarete Leissa|Margarete Leissa]] 21:31, 24. Feb. 2012 (CET)<br />
<br />
== Annotation - Intepretation ==<br />
<br />
"Die Elemente des Story Graphs lassen sich frei auf dem Workspace verschieben. Die Bögen können nun modifiziert werden, z.B. kann angegeben werden, welche Verbindungen für tatsächliche Ereignisse stehen, welche für rein hypothetische oder welche <span style="background-color:yellow;">z.B.</span> Kausalitäten beschreiben."<br />
<br />
ohne "z.B", nutzt du doppelt --[[Benutzer:SarahKoch|Sarah Koch]] 16:32, 21. Feb. 2012 (CET)<br />
<br />
Ansonsten find ich das Tool super erklärt :)<br />
<br />
<br />
== Der Story-Graph-Ansatz ==<br />
<br />
"die von lson zur Demonstration veröffentlichten Bearbeitung von Äsops Fabel". Ich habe erstmal verwirrt geschmunzelt, wer oder was denn nun "lson" sein soll, bis mir dann endlich aufgefallen ist, dass hier einfach nur ein E fehlt. :-D --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:28, 23. Feb. 2012 (CET)<br />
<br />
<span style="color:black; background:yellow">Ziel deses Ansatzes ist es, [...]</span> - Ziel ''dieses'' Ansatzes - [[Benutzer:Katrin|Katrin]] 09:31, 24. Feb. 2012 (CET)<br />
<br />
<span style="color:black; background:yellow">das Zusammenspiels</span> - Zusammenspiel ohne -s - [[Benutzer:Katrin|Katrin]] 09:32, 24. Feb. 2012 (CET)<br />
<br />
<span style="color:black; background:yellow">in den story graph zu integrieren</span> - da du im restlichen Text ''Story Graph'' groß geschrieben hast, solltest du das hier auch tun :) - [[Benutzer:Katrin|Katrin]] 09:34, 24. Feb. 2012 (CET)<br />
<br />
=== Arbeitsschritte ===<br />
<br />
<span style="color:black; background:yellow">des integrierten Äsop-Korpusses</span> - ist der Genitiv von ''Korpus'' --> ''Korpusses''? Ich würde eher sagen ''des Korpi'' oder ''des Korpus''! [[Benutzer:Katrin|Katrin]] 09:44, 24. Feb. 2012 (CET)<br />
<br />
<span style="color:black; background:yellow">dass der Annotator den Text gelesen und verstanden hat sowie einen Überblick über die zentralen Akteure, Themen und Prozesse hat.</span> - eher: dass der Annotator den Text gelesen und verstanden, sowie einen Überblick über die zentralen Akteure, Themen und Prozesse hat. -- sonst hast du zweimal hat hintereinander. [[Benutzer:Katrin|Katrin]] 09:48, 24. Feb. 2012 (CET)<br />
<br />
<span style="color:black; background:yellow">In der Ansicht "Story Elements" definiert man nun die zentralen Figuren, Handelnden und Motive.</span> - ist ''Figuren'' und ''Handelnden'' nicht redundant? [[Benutzer:Katrin|Katrin]] 09:51, 24. Feb. 2012 (CET)<br />
<br />
Du hast doch noch einige Flüchtigkeits- und Tippfehler in der gesamten Arbeit, schau da besser einmal drüber! :) [[Benutzer:Katrin|Katrin]] 09:55, 24. Feb. 2012 (CET)<br />
<br />
<br />
=== Layout ===<br />
Es ist hilfreich, dass du dein doch visuell orientiertes Tool mithilfe von vielen Screenshots erläuterst. Aber vielleicht könnte man das noch etwas übersichtlicher gestalten? Vielleicht ähnlich wie bei Di-Lemmata alle Bilder auf der linken Seite eingebunden, sodass der Text einheitlicher und übersichtlicher wirkt. Auch wären Abbildungsnummerierungen und eine Einbindung der Nummerierung in diesem Fall sehr hilfreich, da sie als Thumbnail doch alle sehr ähnlich wirken und man sie so besser auf den Text beziehen könnte (wie bei Di-Lemmata) <br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:44, 24. Feb. 2012 (CET)<br />
<br />
== Allgemeine Voraussetzungen ==<br />
<br />
Du hast bis jetzt nur eine Parallele zu [[CATMA]] gezogen, vielleicht könntest du noch ein oder zwei weitere Tools in deine Arbeit miteinbeziehen? [[Scheherazade]] ist natürlich von der Konstruktion und Funktionsweise ein ganzes Stück anders als die restlichen Tools. Es sticht aber in seiner Visualisierungsart der Ergebnisse doch ziemlich heraus - ähnlich [[Voyant]] und unähnlich [[AntConc]]! [[Benutzer:Katrin|Katrin]] 10:05, 24. Feb. 2012 (CET)<br />
-- ah, ich sehe gerade, dass Sarah dich darauf schon hingewiesen hat! :)<br />
<br />
<br />
== Beispiel-Anwendung ==<br />
durch de<span style="color:black; background:yellow">n</span> Annotator hergestellt wird <br />
<br />
Bestimmte Strukturen sind sprachgebun<span style="color:black; background:yellow">d</span>en --[[Benutzer:Margarete Leissa|Margarete Leissa]] 21:33, 24. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:Struktur_Wikieintrag_TESTVERSIONDiskussion:Struktur Wikieintrag TESTVERSION2012-02-24T21:01:46Z<p>StephanieLeitz: /* Vorschläge */</p>
<hr />
<div>--[[Benutzer:Berenike Herrmann|Berenike Herrmann]] 12:15, 8. Feb. 2012 (CET)"Externer Link zum Tool" Der Link sollte irgendwo auf der Seite zu finden sein. U.a. aber besser in einem letzten Abschnitt, zusammen mit weiterer Literatur.<br />
--[[Benutzer:Berenike Herrmann|Berenike Herrmann]] 12:15, 8. Feb. 2012 (CET)Malte, können wir alle Literaturangaben zentral auf einer Seite machen?<br />
<br />
== Vorschläge ==<br />
<br />
[[Datei:Vorschlag.JPG]]<br />
1. Ich würde vorschlagen, eine solche Übersicht für die Tools in diesem Wiki zu erstellen.<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:39, 20. Feb. 2012 (CET)<br />
<br />
2. Die Idee von Margarete (Voyant) mit den Logos in der Kurzbeschreibung find ich gut, und auch andere haben sie bereits übernommen. Könnte man das vielleicht konsequent umsetzen? --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:00, 24. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:Struktur_Wikieintrag_TESTVERSIONDiskussion:Struktur Wikieintrag TESTVERSION2012-02-24T21:00:18Z<p>StephanieLeitz: /* Vorschläge */</p>
<hr />
<div>--[[Benutzer:Berenike Herrmann|Berenike Herrmann]] 12:15, 8. Feb. 2012 (CET)"Externer Link zum Tool" Der Link sollte irgendwo auf der Seite zu finden sein. U.a. aber besser in einem letzten Abschnitt, zusammen mit weiterer Literatur.<br />
--[[Benutzer:Berenike Herrmann|Berenike Herrmann]] 12:15, 8. Feb. 2012 (CET)Malte, können wir alle Literaturangaben zentral auf einer Seite machen?<br />
<br />
== Vorschläge ==<br />
<br />
[[Datei:Vorschlag.jpg]]<br />
1. Ich würde vorschlagen, eine solche Übersicht für die Tools in diesem Wiki zu erstellen.<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:39, 20. Feb. 2012 (CET)<br />
<br />
2. Die Idee von Margarete (Voyant) mit den Logos in der Kurzbeschreibung find ich gut, und auch andere haben sie bereits übernommen. Könnte man das vielleicht konsequent umsetzen? --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:00, 24. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:Struktur_Wikieintrag_TESTVERSIONDiskussion:Struktur Wikieintrag TESTVERSION2012-02-24T21:00:03Z<p>StephanieLeitz: /* Vorschlag */</p>
<hr />
<div>--[[Benutzer:Berenike Herrmann|Berenike Herrmann]] 12:15, 8. Feb. 2012 (CET)"Externer Link zum Tool" Der Link sollte irgendwo auf der Seite zu finden sein. U.a. aber besser in einem letzten Abschnitt, zusammen mit weiterer Literatur.<br />
--[[Benutzer:Berenike Herrmann|Berenike Herrmann]] 12:15, 8. Feb. 2012 (CET)Malte, können wir alle Literaturangaben zentral auf einer Seite machen?<br />
<br />
== Vorschläge ==<br />
<br />
[[Datei:Vorschlag.jpg]]<br />
1. Ich würde vorschlagen, eine solche Übersicht für die Tools in diesem Wiki zu erstellen.<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:39, 20. Feb. 2012 (CET)<br />
<br />
2. Die Idee von Margarete (Voyant) mit den Logos in der Kurzbeschreibung find ich gut, und auch andere haben sie bereits übernommen. Könnte man das vielleicht konsequent umsetzen?</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:VoyantDiskussion:Voyant2012-02-24T20:56:35Z<p>StephanieLeitz: /* Benutzerfreundlichkeit */</p>
<hr />
<div>== Allgemeine Voraussetzungen ==<br />
<br />
In welchen Dataiformaten werden die Exportmöglichkeiten ausgegeben?<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 11:18, 22. Feb. 2012 (CET)<br />
<br />
== Logo ==<br />
<br />
Die Idee mit dem Logo find ich super!!<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:55, 22. Feb. 2012 (CET)<br />
<br />
Dito! Werde ich bei mir auch einfügen!<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 14:48, 22. Feb. 2012 (CET)<br />
<br />
== Benutzerfreundlichkeit ==<br />
<br />
Die Visualisierungsfeatures hast du richtig spitze eingefügt, sieht klasse aus! Allerdings würde ich sagen, dass sie weniger zum Abschnitt ''Benutzerfreundlichkeit'' als doch eher zu ''Detaillierte Beschreibung des Tools - Ausgabedaten'' gehören.<br />
Wie siehst du das?<br />
- [[Benutzer:Katrin|Katrin]] 20:53, 22. Feb. 2012 (CET)<br />
<br />
<br />
Ja genau das habe ich auch schon gedacht. Würde die Erläuterung der Visualiersierungsfeatures auch in die detaillierte Beschreibung einfügen. --[[Benutzer:SarahKoch|Sarah Koch]] 11:04, 23. Feb. 2012 (CET)<br />
<br />
Dito, ich würde es auch umplazieren. Ansonsten hast du es mit der Umsetzung geschafft, sowohl die größte Besonderheit des Tools darzustellen, als auch die größte Schwierigkeit in der Beschreibung zu lösen: viele Visualisierungen, die den Text leicht hätten unübersichtlich und unstrukturiert werden lassen. Aber wirklich schön gelöst :)<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 21:56, 24. Feb. 2012 (CET)<br />
<br />
== Transparenz ==<br />
<br />
Voyant sieht als Tool super aus, aber bewerten die Entwickler irgendwo die Validität der Ergebnisse? Hast du dazu etwas gefunden? - [[Benutzer:Katrin|Katrin]] 21:04, 22. Feb. 2012 (CET)<br />
<br />
: Gute Frage! Ich werde die Entwickler-Seite dazu nochmal durchforsten. . :-/ --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:37, 23. Feb. 2012 (CET)<br />
<br />
== Links ==<br />
<br />
Ich finde es klasse, dass du viele Verlinkungen in deinem Artikel eingebaut hast. Um die Links "schöner" aussehen zu lassen, würde ich den Link in die jeweiligen Wörter, die sich auf die Verlinkung beziehen, einbauen. Das hast du auch zum Teil gemacht. Zum Verständnis hier ein Beispiel:<br />
<br />
Im Abschnitt "Transparenz":<br />
"Eigens für Tool-Entwickler und Programmierer wurde ein <span style="background-color:yellow;">Manual</span> aufgesetzt, die den Nutzern die wichtigsten Herangehensweisen mit dem Tool näher bringt, ihnen genauere Details zu den Tools verrät sowie den Quellcode zugänglich macht <span style="background-color:yellow;">([2])</span>."<br />
<br />
Hier verlinkst du am Ende des Satzes auf das Manual, würde aber eher das Wort "Manual" mit dem dahinter liegenden Homepage verlinken. Ist das verständlich erklärt? :)<br />
<br />
Im Abschnitt "Fazit" würde ich das Wort "Rommel" verlinken:<br />
<br />
"<span style="background-color:yellow;">Rommel</span> bemerkt dazu: "No immediate result,(...), can be obtained by the computer, but data are collected that allow for and require further analysis and interpretation by the researcher. The results, however, are impressive.<span style="background-color:yellow;">[4]</span>"<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 11:12, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:Di-LemmataDiskussion:Di-Lemmata2012-02-24T20:49:48Z<p>StephanieLeitz: /* Kurzbeschreibung */</p>
<hr />
<div>== Kurze Beschreibung des Tools ==<br />
Mir ging es ähnlich wie dir: ich hätte gerne eine Geschichte des Tools eingestellt, leider gab es dafür aber keinen eigenen Unterpunkt. Ich weiß nicht, wie ihr das seht, aber ich würde es dennoch nicht in die Kurzbeschreibung setzen, da die das Tool möglichst prägnant erfassen soll, und die Geschichte des Tools für die Nutzer nicht so relevant ist. <br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 21:49, 24. Feb. 2012 (CET)<br />
<br />
Wenn ich mich recht erinnere, haben wir beim Referat die Transparenz besonders kritisiert. War es nicht sogar so, dass die einzelnen Ergebnisse wenig nachvollziehbar waren? Oder irre ich mich? --[[Benutzer:StephanieLeitz|StephanieLeitz]] 16:20, 22. Feb. 2012 (CET)<br />
<br />
Schön geschrieben. :-) Ich nehme mal nicht an, dass sie mit Absicht platziert wurden, daher habe ich mir die Freiheit erlaubt, die Bindestriche zu entfernen, die sich in einigen Wörtern verfangen haben -> "geschrie-ben", "Ver-fügung" etc.--[[Benutzer:Margarete Leissa|Margarete Leissa]] 19:31, 23. Feb. 2012 (CET)<br />
<br />
== Benutzerfreundlichkeit ==<br />
<br />
Leider gibt es für Fortgeschrittene keinen <span style="color:black; background:yellow"><br />
porfessioniellen</span> <span style="color:black; background:yellow">(vgl. AntConc</span>, der anspruchsvollere Fragen zulässt. <br />
<br />
-- "professionellen" und die AntConc-Klammer ist nicht geschlossen. <br />
<br />
-- Meinst du mit <span style="color:black; background:yellow">(vgl. AntConc)</span>, dass AntConc keine anspruchsvolleren Fragestellungen zulässt, bzw. dass AntConc keinen Advanced Modus hat? Denn AntConc hat die Möglichkeit, sowohl über die ''Tool Preferences'' als auch über die ''Advanced Search Options'' den Anspruch zu steigern!<br />
[[Benutzer:Katrin|Katrin]] 21:34, 23. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
<span style="color:black; background:yellow">quantitaiv</span> -- quantitativ - [[Benutzer:Katrin|Katrin]] 21:37, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:Di-LemmataDiskussion:Di-Lemmata2012-02-24T20:49:02Z<p>StephanieLeitz: </p>
<hr />
<div>== Kurzbeschreibung ==<br />
Mir ging es ähnlich wie dir: ich hätte gerne eine Geschichte des Tools eingestellt, leider gab es dafür aber keinen eigenen Unterpunkt. Ich weiß nicht, wie ihr das seht, aber ich würde es dennoch nicht in die Kurzbeschreibung setzen, da die das Tool möglichst prägnant erfassen soll, und die Geschichte des Tools für die Nutzer nicht so relevant ist. <br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 21:49, 24. Feb. 2012 (CET)<br />
<br />
Wenn ich mich recht erinnere, haben wir beim Referat die Transparenz besonders kritisiert. War es nicht sogar so, dass die einzelnen Ergebnisse wenig nachvollziehbar waren? Oder irre ich mich? --[[Benutzer:StephanieLeitz|StephanieLeitz]] 16:20, 22. Feb. 2012 (CET)<br />
<br />
Schön geschrieben. :-) Ich nehme mal nicht an, dass sie mit Absicht platziert wurden, daher habe ich mir die Freiheit erlaubt, die Bindestriche zu entfernen, die sich in einigen Wörtern verfangen haben -> "geschrie-ben", "Ver-fügung" etc.--[[Benutzer:Margarete Leissa|Margarete Leissa]] 19:31, 23. Feb. 2012 (CET)<br />
<br />
== Benutzerfreundlichkeit ==<br />
<br />
Leider gibt es für Fortgeschrittene keinen <span style="color:black; background:yellow"><br />
porfessioniellen</span> <span style="color:black; background:yellow">(vgl. AntConc</span>, der anspruchsvollere Fragen zulässt. <br />
<br />
-- "professionellen" und die AntConc-Klammer ist nicht geschlossen. <br />
<br />
-- Meinst du mit <span style="color:black; background:yellow">(vgl. AntConc)</span>, dass AntConc keine anspruchsvolleren Fragestellungen zulässt, bzw. dass AntConc keinen Advanced Modus hat? Denn AntConc hat die Möglichkeit, sowohl über die ''Tool Preferences'' als auch über die ''Advanced Search Options'' den Anspruch zu steigern!<br />
[[Benutzer:Katrin|Katrin]] 21:34, 23. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
<span style="color:black; background:yellow">quantitaiv</span> -- quantitativ - [[Benutzer:Katrin|Katrin]] 21:37, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:ScheherazadeDiskussion:Scheherazade2012-02-23T23:09:36Z<p>StephanieLeitz: /* Fazit */</p>
<hr />
<div><br />
== Schreibstil ==<br />
<br />
Versuch, möglichst die <span style="background-color:yellow;">Ich-Form</span> sowie das Wort <span style="background-color:yellow;">man</span> zu vermeiden, damit es sich nach einem wissenschaftlichen und allgemeinen Text anhört. <br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:18, 21. Feb. 2012 (CET)<br />
<br />
Mir gefällt besonders die Beschreibung des Tools. Genauer gesagt die Beschreibung der Funktionen in einer Art Anwendung erklärt wird. Das ist nicht in jedem Fall ein geeignetes Vorgehen, in diesem Fall kann man den Beischreibungen jedoch gut folgen. --[[Benutzer:StephanieLeitz|StephanieLeitz]] 16:15, 22. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
Versuch im Fazit noch einen Vergleich zu anderen qualitativen Tools herzustellen. Eventuell auch einen Vergleich zu quantitativen Tools?<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:22, 21. Feb. 2012 (CET)<br />
<br />
desambiguiert<br />
<br />
disambiguiert? --[[Benutzer:StephanieLeitz|StephanieLeitz]] 00:09, 24. Feb. 2012 (CET)<br />
<br />
== Annotation - Intepretation ==<br />
<br />
"Die Elemente des Story Graphs lassen sich frei auf dem Workspace verschieben. Die Bögen können nun modifiziert werden, z.B. kann angegeben werden, welche Verbindungen für tatsächliche Ereignisse stehen, welche für rein hypothetische oder welche <span style="background-color:yellow;">z.B.</span> Kausalitäten beschreiben."<br />
<br />
ohne "z.B", nutzt du doppelt --[[Benutzer:SarahKoch|Sarah Koch]] 16:32, 21. Feb. 2012 (CET)<br />
<br />
Ansonsten find ich das Tool super erklärt :)<br />
<br />
<br />
== Der Story-Graph-Ansatz ==<br />
<br />
"die von lson zur Demonstration veröffentlichten Bearbeitung von Äsops Fabel". Ich habe erstmal verwirrt geschmunzelt, wer oder was denn nun "lson" sein soll, bis mir dann endlich aufgefallen ist, dass hier einfach nur ein E fehlt. :-D --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:28, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:AntConcDiskussion:AntConc2012-02-23T21:57:11Z<p>StephanieLeitz: </p>
<hr />
<div>== Detaillierte Beschreibung des Tools ==<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die Einzelanalyse von Texten und Korpora als auch den Vergleich zwischen mehreren."<br />
<br />
Würde den Satz am Ende umstellen:<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die <span style="background-color:yellow;">Einzelanalyse von als auch den Vergleich zwischen mehreren Texten und Korpora</span>."<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:37, 21. Feb. 2012 (CET)<br />
<br />
Anderer Vorschlag:<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl <span style="background-color:yellow;">Einzelanalysen von Texten als auch den Vergleich zwishen mehreren Texten und Korpora </span>."<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:37, 23. Feb. 2012 (CET)<br />
<br />
Du beschreibst die Möglichkeiten des Tools detailliert und verständlich. Vielleicht könntest du den Verweisen auf die jeweiligen Screenshots noch hinschreiben, welches Beispiel du dafür angewendet hast?<br />
<br />
Ansonsten super erklärt! :)<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:43, 21. Feb. 2012 (CET)<br />
<br />
Dito. Schön detaillierte Beschreibung.<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:37, 23. Feb. 2012 (CET)<br />
<br />
<br />
Falls nötig, muss für die zu laufenden Analysen die richtigen Global Settings, sowie eventuell auch bestimmte Tool Preferences eingestellt werden – je nachdem, welche Zielführung vorgesehen ist.<br />
<br />
Etwas umständlich formuliert.<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:37, 23. Feb. 2012 (CET)<br />
<br />
Das Clusters Tool, zeigt je nach Sucheinstellungen Clusterlisten, also Wortgruppenlisten statt einzelner Wörter, im eingespeisten Korpus auf.<br />
Komma zu viel, vielleicht kürzen, da im nächsten Satz die genaue Erklärung folgt?<br />
"Das Cluster Tool zeigt Wortgruppenlisten statt einzelner Wörter im eingespeisten Korpus auf".<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:37, 23. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
Die Computer-gestützte quantitative (und qualitative) Analyse von Texten bietet, und da stimmte ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
Verbessert:<br />
<br />
Die <span style="background-color:yellow;">Computergestützte</span> quantitative (und qualitative) Analyse von Texten bietet, und da <span style="background-color:yellow;">stimme</span> ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:31, 22. Feb. 2012 (CET)<br />
<br />
Dafür erweist sich AntConc als ausgesprochen transparent in der Programmierung und als sehr motivierend im Bereich User-Kritik und Verbesserungsvorschläge <span style="background-color:yellow;">(im Gegensatz zu DiLemmata)</span>."<br />
<br />
Der Link zu Di-Lemmata funktioniert nicht, weil ein Bindestrich fehlt.--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:07, 23. Feb. 2012 (CET)<br />
<br />
== Kurzbeschreibung des Tools ==<br />
Wie ihr seht, habe ich meine Kurzbeschreibung des Tools unter dem Abschnitt "1. K d T" laufen und nicht als übergeordneten Text vor die Inhaltsangabe gestellt. Das liegt einfach nur daran, dass ich nicht weiß, wie man das da oben hin ordnet! Kann mir das jemand erklären? [[Benutzer:Katrin|Katrin]] 21:20, 23. Feb. 2012 (CET)<br />
<br />
Probier mal aus, gar keine Überschrift zu verwenden.--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:06, 23. Feb. 2012 (CET)<br />
<br />
<br />
AntConc, <span style="background-color:yellow;">als quantitatives Tool und in der Lage, große Testmassen auf statistische Werte, Frequenzen und Konkordanzen zu untersuchen, </span> ist daher fähig, Kookurenzanalysen, Frequenzanalysen, Keyness-Analysen und Kontingenzanalysen durchzuführen.<br />
Durch den Einschub etwas schwierig zu lesen.</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:WMatrixDiskussion:WMatrix2012-02-23T21:53:18Z<p>StephanieLeitz: </p>
<hr />
<div>== Automatische Arbeitsschritte ==<br />
<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. Für das POS Tagging wird auf das ebenfalls von der <span style="background-color:yellow;">Lancester? University</span> entwickelte Tool CLAWS zugegriffen<br />
<br />
Ohne "?" --[[Benutzer:SarahKoch|Sarah Koch]] 12:27, 22. Feb. 2012 (CET)<br />
<br />
Danke, erledigt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:41, 23. Feb. 2012 (CET)<br />
<br />
<br />
"Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar."<br />
<br />
Mir kommt der Satz durch das doppelte "als" ein wenig holprig vor. Wie wäre es mit <br />
"Die Annotationen selbst sind im Advanced Interface entweder ''als gelistete oder schematische xml Datei'' einsehbar."?--[[Benutzer:Margarete Leissa|Margarete Leissa]] 19:46, 23. Feb. 2012 (CET)<br />
<br />
Danke, erledigt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:41, 23. Feb. 2012 (CET)<br />
<br />
== Advanced Interface ==<br />
<br />
"Um alle Frequenzen angezeigt zu kriegen" klingt unschön. Vielleicht stattdessen <br />
<br />
"Damit alle Frequenzen angezeigt werden können,(...)"?--[[Benutzer:Margarete Leissa|Margarete Leissa]] 19:52, 23. Feb. 2012 (CET)<br />
<br />
Done, danke! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:44, 23. Feb. 2012 (CET)<br />
<br />
== Allgemeine Voraussetzungen ==<br />
<br />
WMatrix wendet sich hauptsächlich an Nutzer in <span style="background-color:yellow;">Forschung- und Lehre.</span><br />
<br />
ohne "-"<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:28, 22. Feb. 2012 (CET)<br />
<br />
== Beispielanwendung ==<br />
<br />
"<span style="background-color:yellow;">*Erweiterung des Lexikons</span><br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise <span style="background-color:yellow;">„‘Madam“</span>. Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll.<br />
<br />
<span style="background-color:yellow;">*Kategorisierungen der Kontexte</span>"<br />
<br />
<br />
Bei der Aufzählung fehlt in der Formatierung jeweils das Leerzeichen. Bei "Madam" ist ein Apostroph zu viel.<br />
<br />
Ansonsten toll geschrieben :)<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:41, 22. Feb. 2012 (CET)<br />
<br />
Danke für die Korrekturen- wurden eingefügt. Das Apostoph vor Madam gehört da hin- aus genau dem Grund wurde es von dem System nicht erfasst. Ich habe die Erklärung hinzugefügt.<br />
<br />
Kann mir jemand vielleicht mit der Aufzählung helfen? Irgendwas stimmt da nicht....<br />
<br />
<br />
Du musstest einfach nur zwichen Bild und Aufzählung einen Absatz einfügen, so versteht das Programm, das ein Aufzählungszeichen gemeitn ist. Im Wiki-Artikel wird dieses dann aber nicht sichtbar. Habs mal geändert. --[[Benutzer:SarahKoch|Sarah Koch]] 10:56, 23. Feb. 2012 (CET)<br />
Meeerci :) Darum hats nicht geklappt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:53, 23. Feb. 2012 (CET)<br />
<br />
== Kurzbeschreibung des Tools ==<br />
<br />
Dieses Wiki bezieht sich auf WMatrix3, die 2012 <span style="color:black; background:yellow"><br />
aktuellen</span> Betaversion.<br />
-- aktuelle (ohne n). - [[Benutzer:Katrin|Katrin]] 19:40, 22. Feb. 2012 (CET)<br />
Danke für den Hinweis, ist umgesetzt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:53, 23. Feb. 2012 (CET)<br />
<br />
== Benutzerfreundlichkeit ==<br />
'''Hilfestellungen'''<br />
<br />
<span style="color:black; background:yellow">Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen.</span><br />
-- Besser: ''Eine Reihe von Hilfestellungen erhöht die Benutzerfreundlichkeit.''<br />
[[Benutzer:Katrin|Katrin]] 19:50, 22. Feb. 2012 (CET)<br />
Danke für den Hinweis, ist umgesetzt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:53, 23. Feb. 2012 (CET)<br />
<br />
'''Kreative Anwendungen'''<br />
<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte <span style="color:black; background:yellow">möglich</span>: So ist es in jedem Fall <span style="color:black; background:yellow">möglich</span>, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ <span style="color:black; background:yellow">möglich</span>, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen.<br />
-- Da ist etwas zu viel ''möglich'' an einer Stelle!<br />
[[Benutzer:Katrin|Katrin]] 19:55, 22. Feb. 2012 (CET)<br />
Jetzt sollten es möglicherweise einige möglichs weniger sein ;) --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:53, 23. Feb. 2012 (CET)<br />
<br />
== Allgemeine Benutzerfreundlichkeit ==<br />
Die Hauptzielgruppe <strike>ist</strike> sind <span style="color:black; background:yellow">u</span>niversitäre Arbeitsgruppen --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:14, 23. Feb. 2012 (CET)<br />
Danke für den Hinweis, ist umgesetzt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:53, 23. Feb. 2012 (CET) <br />
<br />
== Daten-Einspeisung ==<br />
So kann <span style="color:black; background:yellow">der</span> zu analysierende Text mit Tags eingeschlossen werden --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:07, 23. Feb. 2012 (CET)<br />
<br />
Danke für den Hinweis, ist umgesetzt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:53, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-23T21:50:54Z<p>StephanieLeitz: </p>
<hr />
<div>[[Image: logoWM.png|200px|right|Logo WMatrix]] WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuelle Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface im xml-Format als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Damit WMatrix die Concordancen anzeigt, ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann der zu analysierende Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe von WMAtrix sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Eine Reihe von Hilfestellungen erhöhen die Benutzerfreundlichkeit. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So kann man sich die Wortfrequenzen anzeigen lassen, oder durch das Erschaffen von neuen semantischen Kategorien in „My Lexicon“ einzelne semantische Bereiche erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Daten, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestütze Textanalyse repetetive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen.<br />
Prinzipiell sind oberflächenstrukturelle Fragen einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänome wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm , das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.<br />
<br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierte semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als Überrepresentaiv erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]] <br />
* Erweiterung des Lexikons<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]] <br />
* Kategorisierungen der Kontexte<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.<br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler]<br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br />
[http://openshakespeare.org/ -Open Shakespear]<br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:WMatrixDiskussion:WMatrix2012-02-23T21:44:42Z<p>StephanieLeitz: /* Advanced Interface */</p>
<hr />
<div>== Automatische Arbeitsschritte ==<br />
<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. Für das POS Tagging wird auf das ebenfalls von der <span style="background-color:yellow;">Lancester? University</span> entwickelte Tool CLAWS zugegriffen<br />
<br />
Ohne "?" --[[Benutzer:SarahKoch|Sarah Koch]] 12:27, 22. Feb. 2012 (CET)<br />
<br />
Danke, erledigt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:41, 23. Feb. 2012 (CET)<br />
<br />
<br />
"Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar."<br />
<br />
Mir kommt der Satz durch das doppelte "als" ein wenig holprig vor. Wie wäre es mit <br />
"Die Annotationen selbst sind im Advanced Interface entweder ''als gelistete oder schematische xml Datei'' einsehbar."?--[[Benutzer:Margarete Leissa|Margarete Leissa]] 19:46, 23. Feb. 2012 (CET)<br />
<br />
Danke, erledigt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:41, 23. Feb. 2012 (CET)<br />
<br />
== Advanced Interface ==<br />
<br />
"Um alle Frequenzen angezeigt zu kriegen" klingt unschön. Vielleicht stattdessen <br />
<br />
"Damit alle Frequenzen angezeigt werden können,(...)"?--[[Benutzer:Margarete Leissa|Margarete Leissa]] 19:52, 23. Feb. 2012 (CET)<br />
<br />
Done, danke! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:44, 23. Feb. 2012 (CET)<br />
<br />
== Allgemeine Voraussetzungen ==<br />
<br />
WMatrix wendet sich hauptsächlich an Nutzer in <span style="background-color:yellow;">Forschung- und Lehre.</span><br />
<br />
ohne "-"<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:28, 22. Feb. 2012 (CET)<br />
<br />
== Beispielanwendung ==<br />
<br />
"<span style="background-color:yellow;">*Erweiterung des Lexikons</span><br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise <span style="background-color:yellow;">„‘Madam“</span>. Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll.<br />
<br />
<span style="background-color:yellow;">*Kategorisierungen der Kontexte</span>"<br />
<br />
<br />
Bei der Aufzählung fehlt in der Formatierung jeweils das Leerzeichen. Bei "Madam" ist ein Apostroph zu viel.<br />
<br />
Ansonsten toll geschrieben :)<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:41, 22. Feb. 2012 (CET)<br />
<br />
Danke für die Korrekturen- wurden eingefügt. Das Apostoph vor Madam gehört da hin- aus genau dem Grund wurde es von dem System nicht erfasst. Ich habe die Erklärung hinzugefügt.<br />
<br />
Kann mir jemand vielleicht mit der Aufzählung helfen? Irgendwas stimmt da nicht....<br />
<br />
<br />
Du musstest einfach nur zwichen Bild und Aufzählung einen Absatz einfügen, so versteht das Programm, das ein Aufzählungszeichen gemeitn ist. Im Wiki-Artikel wird dieses dann aber nicht sichtbar. Habs mal geändert. --[[Benutzer:SarahKoch|Sarah Koch]] 10:56, 23. Feb. 2012 (CET)<br />
<br />
== Kurzbeschreibung des Tools ==<br />
<br />
Dieses Wiki bezieht sich auf WMatrix3, die 2012 <span style="color:black; background:yellow"><br />
aktuellen</span> Betaversion.<br />
-- aktuelle (ohne n). - [[Benutzer:Katrin|Katrin]] 19:40, 22. Feb. 2012 (CET)<br />
<br />
== Benutzerfreundlichkeit ==<br />
'''Hilfestellungen'''<br />
<br />
<span style="color:black; background:yellow">Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen.</span><br />
-- Besser: ''Eine Reihe von Hilfestellungen erhöht die Benutzerfreundlichkeit.''<br />
[[Benutzer:Katrin|Katrin]] 19:50, 22. Feb. 2012 (CET)<br />
<br />
'''Kreative Anwendungen'''<br />
<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte <span style="color:black; background:yellow">möglich</span>: So ist es in jedem Fall <span style="color:black; background:yellow">möglich</span>, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ <span style="color:black; background:yellow">möglich</span>, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen.<br />
-- Da ist etwas zu viel ''möglich'' an einer Stelle!<br />
[[Benutzer:Katrin|Katrin]] 19:55, 22. Feb. 2012 (CET)<br />
<br />
== Allgemeine Benutzerfreundlichkeit ==<br />
Die Hauptzielgruppe <strike>ist</strike> sind <span style="color:black; background:yellow">u</span>niversitäre Arbeitsgruppen --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:14, 23. Feb. 2012 (CET)<br />
<br />
== Daten-Einspeisung ==<br />
So kann <span style="color:black; background:yellow">der</span> zu analysierende Text mit Tags eingeschlossen werden --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:07, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:WMatrixDiskussion:WMatrix2012-02-23T21:41:49Z<p>StephanieLeitz: /* Automatische Arbeitsschritte */</p>
<hr />
<div>== Automatische Arbeitsschritte ==<br />
<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. Für das POS Tagging wird auf das ebenfalls von der <span style="background-color:yellow;">Lancester? University</span> entwickelte Tool CLAWS zugegriffen<br />
<br />
Ohne "?" --[[Benutzer:SarahKoch|Sarah Koch]] 12:27, 22. Feb. 2012 (CET)<br />
<br />
Danke, erledigt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:41, 23. Feb. 2012 (CET)<br />
<br />
<br />
"Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar."<br />
<br />
Mir kommt der Satz durch das doppelte "als" ein wenig holprig vor. Wie wäre es mit <br />
"Die Annotationen selbst sind im Advanced Interface entweder ''als gelistete oder schematische xml Datei'' einsehbar."?--[[Benutzer:Margarete Leissa|Margarete Leissa]] 19:46, 23. Feb. 2012 (CET)<br />
<br />
Danke, erledigt! --[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:41, 23. Feb. 2012 (CET)<br />
<br />
== Advanced Interface ==<br />
<br />
"Um alle Frequenzen angezeigt zu kriegen" klingt unschön. Vielleicht stattdessen <br />
<br />
"Damit alle Frequenzen angezeigt werden können,(...)"?--[[Benutzer:Margarete Leissa|Margarete Leissa]] 19:52, 23. Feb. 2012 (CET)<br />
<br />
== Allgemeine Voraussetzungen ==<br />
<br />
WMatrix wendet sich hauptsächlich an Nutzer in <span style="background-color:yellow;">Forschung- und Lehre.</span><br />
<br />
ohne "-"<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:28, 22. Feb. 2012 (CET)<br />
<br />
== Beispielanwendung ==<br />
<br />
"<span style="background-color:yellow;">*Erweiterung des Lexikons</span><br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise <span style="background-color:yellow;">„‘Madam“</span>. Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll.<br />
<br />
<span style="background-color:yellow;">*Kategorisierungen der Kontexte</span>"<br />
<br />
<br />
Bei der Aufzählung fehlt in der Formatierung jeweils das Leerzeichen. Bei "Madam" ist ein Apostroph zu viel.<br />
<br />
Ansonsten toll geschrieben :)<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:41, 22. Feb. 2012 (CET)<br />
<br />
Danke für die Korrekturen- wurden eingefügt. Das Apostoph vor Madam gehört da hin- aus genau dem Grund wurde es von dem System nicht erfasst. Ich habe die Erklärung hinzugefügt.<br />
<br />
Kann mir jemand vielleicht mit der Aufzählung helfen? Irgendwas stimmt da nicht....<br />
<br />
<br />
Du musstest einfach nur zwichen Bild und Aufzählung einen Absatz einfügen, so versteht das Programm, das ein Aufzählungszeichen gemeitn ist. Im Wiki-Artikel wird dieses dann aber nicht sichtbar. Habs mal geändert. --[[Benutzer:SarahKoch|Sarah Koch]] 10:56, 23. Feb. 2012 (CET)<br />
<br />
== Kurzbeschreibung des Tools ==<br />
<br />
Dieses Wiki bezieht sich auf WMatrix3, die 2012 <span style="color:black; background:yellow"><br />
aktuellen</span> Betaversion.<br />
-- aktuelle (ohne n). - [[Benutzer:Katrin|Katrin]] 19:40, 22. Feb. 2012 (CET)<br />
<br />
== Benutzerfreundlichkeit ==<br />
'''Hilfestellungen'''<br />
<br />
<span style="color:black; background:yellow">Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen.</span><br />
-- Besser: ''Eine Reihe von Hilfestellungen erhöht die Benutzerfreundlichkeit.''<br />
[[Benutzer:Katrin|Katrin]] 19:50, 22. Feb. 2012 (CET)<br />
<br />
'''Kreative Anwendungen'''<br />
<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte <span style="color:black; background:yellow">möglich</span>: So ist es in jedem Fall <span style="color:black; background:yellow">möglich</span>, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ <span style="color:black; background:yellow">möglich</span>, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen.<br />
-- Da ist etwas zu viel ''möglich'' an einer Stelle!<br />
[[Benutzer:Katrin|Katrin]] 19:55, 22. Feb. 2012 (CET)<br />
<br />
== Allgemeine Benutzerfreundlichkeit ==<br />
Die Hauptzielgruppe <strike>ist</strike> sind <span style="color:black; background:yellow">u</span>niversitäre Arbeitsgruppen --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:14, 23. Feb. 2012 (CET)<br />
<br />
== Daten-Einspeisung ==<br />
So kann <span style="color:black; background:yellow">der</span> zu analysierende Text mit Tags eingeschlossen werden --[[Benutzer:Margarete Leissa|Margarete Leissa]] 20:07, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:AntConcDiskussion:AntConc2012-02-23T21:37:29Z<p>StephanieLeitz: </p>
<hr />
<div>== Detaillierte Beschreibung des Tools ==<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die Einzelanalyse von Texten und Korpora als auch den Vergleich zwischen mehreren."<br />
<br />
Würde den Satz am Ende umstellen:<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die <span style="background-color:yellow;">Einzelanalyse von als auch den Vergleich zwischen mehreren Texten und Korpora</span>."<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:37, 21. Feb. 2012 (CET)<br />
<br />
Anderer Vorschlag:<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl <span style="background-color:yellow;">Einzelanalysen von Texten als auch den Vergleich zwishen mehreren Texten und Korpora </span>."<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:37, 23. Feb. 2012 (CET)<br />
<br />
Du beschreibst die Möglichkeiten des Tools detailliert und verständlich. Vielleicht könntest du den Verweisen auf die jeweiligen Screenshots noch hinschreiben, welches Beispiel du dafür angewendet hast?<br />
<br />
Ansonsten super erklärt! :)<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:43, 21. Feb. 2012 (CET)<br />
<br />
Dito. Schön detaillierte Beschreibung.<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:37, 23. Feb. 2012 (CET)<br />
<br />
<br />
Falls nötig, muss für die zu laufenden Analysen die richtigen Global Settings, sowie eventuell auch bestimmte Tool Preferences eingestellt werden – je nachdem, welche Zielführung vorgesehen ist.<br />
<br />
Etwas umständlich formuliert.<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:37, 23. Feb. 2012 (CET)<br />
<br />
Das Clusters Tool, zeigt je nach Sucheinstellungen Clusterlisten, also Wortgruppenlisten statt einzelner Wörter, im eingespeisten Korpus auf.<br />
Komma zu viel, vielleicht kürzen, da im nächsten Satz die genaue Erklärung folgt?<br />
"Das Cluster Tool zeigt Wortgruppenlisten statt einzelner Wörter im eingespeisten Korpus auf".<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:37, 23. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
Die Computer-gestützte quantitative (und qualitative) Analyse von Texten bietet, und da stimmte ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
Verbessert:<br />
<br />
Die <span style="background-color:yellow;">Computergestützte</span> quantitative (und qualitative) Analyse von Texten bietet, und da <span style="background-color:yellow;">stimme</span> ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:31, 22. Feb. 2012 (CET)<br />
<br />
Dafür erweist sich AntConc als ausgesprochen transparent in der Programmierung und als sehr motivierend im Bereich User-Kritik und Verbesserungsvorschläge <span style="background-color:yellow;">(im Gegensatz zu DiLemmata)</span>."<br />
<br />
Der Link zu Di-Lemmata funktioniert nicht, weil ein Bindestrich fehlt.--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:07, 23. Feb. 2012 (CET)<br />
<br />
== Kurzbeschreibung des Tools ==<br />
Wie ihr seht, habe ich meine Kurzbeschreibung des Tools unter dem Abschnitt "1. K d T" laufen und nicht als übergeordneten Text vor die Inhaltsangabe gestellt. Das liegt einfach nur daran, dass ich nicht weiß, wie man das da oben hin ordnet! Kann mir das jemand erklären? [[Benutzer:Katrin|Katrin]] 21:20, 23. Feb. 2012 (CET)<br />
<br />
Probier mal aus, gar keine Überschrift zu verwenden.--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:06, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:AntConcDiskussion:AntConc2012-02-23T21:07:20Z<p>StephanieLeitz: /* Fazit */</p>
<hr />
<div>== Detaillierte Beschreibung des Tools ==<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die Einzelanalyse von Texten und Korpora als auch den Vergleich zwischen mehreren."<br />
<br />
Würde den Satz am Ende umstellen:<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die <span style="background-color:yellow;">Einzelanalyse von als auch den Vergleich zwischen mehreren Texten und Korpora</span>."<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:37, 21. Feb. 2012 (CET)<br />
<br />
<br />
Du beschreibst die Möglichkeiten des Tools detailliert und verständlich. Vielleicht könntest du den Verweisen auf die jeweiligen Screenshots noch hinschreiben, welches Beispiel du dafür angewendet hast?<br />
<br />
Ansonsten super erklärt! :)<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:43, 21. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
Die Computer-gestützte quantitative (und qualitative) Analyse von Texten bietet, und da stimmte ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
Verbessert:<br />
<br />
Die <span style="background-color:yellow;">Computergestützte</span> quantitative (und qualitative) Analyse von Texten bietet, und da <span style="background-color:yellow;">stimme</span> ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:31, 22. Feb. 2012 (CET)<br />
<br />
Dafür erweist sich AntConc als ausgesprochen transparent in der Programmierung und als sehr motivierend im Bereich User-Kritik und Verbesserungsvorschläge <span style="background-color:yellow;">(im Gegensatz zu DiLemmata)</span>."<br />
<br />
Der Link zu Di-Lemmata funktioniert nicht, weil ein Bindestrich fehlt.--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:07, 23. Feb. 2012 (CET)<br />
<br />
== Kurzbeschreibung des Tools ==<br />
Wie ihr seht, habe ich meine Kurzbeschreibung des Tools unter dem Abschnitt "1. K d T" laufen und nicht als übergeordneten Text vor die Inhaltsangabe gestellt. Das liegt einfach nur daran, dass ich nicht weiß, wie man das da oben hin ordnet! Kann mir das jemand erklären? [[Benutzer:Katrin|Katrin]] 21:20, 23. Feb. 2012 (CET)<br />
<br />
Probier mal aus, gar keine Überschrift zu verwenden.--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:06, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:AntConcDiskussion:AntConc2012-02-23T21:06:26Z<p>StephanieLeitz: /* Kurzbeschreibung des Tools */</p>
<hr />
<div>== Detaillierte Beschreibung des Tools ==<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die Einzelanalyse von Texten und Korpora als auch den Vergleich zwischen mehreren."<br />
<br />
Würde den Satz am Ende umstellen:<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die <span style="background-color:yellow;">Einzelanalyse von als auch den Vergleich zwischen mehreren Texten und Korpora</span>."<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:37, 21. Feb. 2012 (CET)<br />
<br />
<br />
Du beschreibst die Möglichkeiten des Tools detailliert und verständlich. Vielleicht könntest du den Verweisen auf die jeweiligen Screenshots noch hinschreiben, welches Beispiel du dafür angewendet hast?<br />
<br />
Ansonsten super erklärt! :)<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:43, 21. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
Die Computer-gestützte quantitative (und qualitative) Analyse von Texten bietet, und da stimmte ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
Verbessert:<br />
<br />
Die <span style="background-color:yellow;">Computergestützte</span> quantitative (und qualitative) Analyse von Texten bietet, und da <span style="background-color:yellow;">stimme</span> ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:31, 22. Feb. 2012 (CET)<br />
<br />
"Dafür erweist sich AntConc als ausgesprochen transparent in der Programmierung und als sehr motivierend im Bereich User-Kritik und Verbesserungsvorschläge <span style="background-color:yellow;">Computergestützte</span>(im Gegensatz zu DiLemmata)</span>."<br />
<br />
Der Link zu Di-Lemmata funktioniert nicht, weil ein Bindestrich fehlt.<br />
<br />
== Kurzbeschreibung des Tools ==<br />
Wie ihr seht, habe ich meine Kurzbeschreibung des Tools unter dem Abschnitt "1. K d T" laufen und nicht als übergeordneten Text vor die Inhaltsangabe gestellt. Das liegt einfach nur daran, dass ich nicht weiß, wie man das da oben hin ordnet! Kann mir das jemand erklären? [[Benutzer:Katrin|Katrin]] 21:20, 23. Feb. 2012 (CET)<br />
<br />
Probier mal aus, gar keine Überschrift zu verwenden.--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:06, 23. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:AntConcDiskussion:AntConc2012-02-23T21:06:08Z<p>StephanieLeitz: </p>
<hr />
<div>== Detaillierte Beschreibung des Tools ==<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die Einzelanalyse von Texten und Korpora als auch den Vergleich zwischen mehreren."<br />
<br />
Würde den Satz am Ende umstellen:<br />
<br />
"AntConc v.3.2.4 arbeitet mit einem grafischen Interface und erlaubt sowohl die <span style="background-color:yellow;">Einzelanalyse von als auch den Vergleich zwischen mehreren Texten und Korpora</span>."<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:37, 21. Feb. 2012 (CET)<br />
<br />
<br />
Du beschreibst die Möglichkeiten des Tools detailliert und verständlich. Vielleicht könntest du den Verweisen auf die jeweiligen Screenshots noch hinschreiben, welches Beispiel du dafür angewendet hast?<br />
<br />
Ansonsten super erklärt! :)<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:43, 21. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
Die Computer-gestützte quantitative (und qualitative) Analyse von Texten bietet, und da stimmte ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
Verbessert:<br />
<br />
Die <span style="background-color:yellow;">Computergestützte</span> quantitative (und qualitative) Analyse von Texten bietet, und da <span style="background-color:yellow;">stimme</span> ich Rommel (2004) in jeder Hinsicht zu<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:31, 22. Feb. 2012 (CET)<br />
<br />
"Dafür erweist sich AntConc als ausgesprochen transparent in der Programmierung und als sehr motivierend im Bereich User-Kritik und Verbesserungsvorschläge <span style="background-color:yellow;">Computergestützte</span>(im Gegensatz zu DiLemmata)</span>."<br />
<br />
Der Link zu Di-Lemmata funktioniert nicht, weil ein Bindestrich fehlt.<br />
<br />
== Kurzbeschreibung des Tools ==<br />
Wie ihr seht, habe ich meine Kurzbeschreibung des Tools unter dem Abschnitt "1. K d T" laufen und nicht als übergeordneten Text vor die Inhaltsangabe gestellt. Das liegt einfach nur daran, dass ich nicht weiß, wie man das da oben hin ordnet! Kann mir das jemand erklären? [[Benutzer:Katrin|Katrin]] 21:20, 23. Feb. 2012 (CET)<br />
<br />
Probier mal aus, gar keine Überschrift zu verwenden.</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:Di-LemmataDiskussion:Di-Lemmata2012-02-22T15:20:42Z<p>StephanieLeitz: Die Seite wurde neu angelegt: „Wenn ich mich recht erinnere, haben wir beim Referat die Transparenz besonders kritisiert. War es nicht sogar so, dass die einzelnen Ergebnisse wenig nachvollzieh…“</p>
<hr />
<div>Wenn ich mich recht erinnere, haben wir beim Referat die Transparenz besonders kritisiert. War es nicht sogar so, dass die einzelnen Ergebnisse wenig nachvollziehbar waren? Oder irre ich mich? --[[Benutzer:StephanieLeitz|StephanieLeitz]] 16:20, 22. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:ScheherazadeDiskussion:Scheherazade2012-02-22T15:15:05Z<p>StephanieLeitz: /* Schreibstil */</p>
<hr />
<div><br />
== Schreibstil ==<br />
<br />
Versuch, möglichst die <span style="background-color:yellow;">Ich-Form</span> sowie das Wort <span style="background-color:yellow;">man</span> zu vermeiden, damit es sich nach einem wissenschaftlichen und allgemeinen Text anhört. <br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:18, 21. Feb. 2012 (CET)<br />
<br />
Mir gefällt besonders die Beschreibung des Tools. Genauer gesagt die Beschreibung der Funktionen in einer Art Anwendung erklärt wird. Das ist nicht in jedem Fall ein geeignetes Vorgehen, in diesem Fall kann man den Beischreibungen jedoch gut folgen. --[[Benutzer:StephanieLeitz|StephanieLeitz]] 16:15, 22. Feb. 2012 (CET)<br />
<br />
== Fazit ==<br />
<br />
Versuch im Fazit noch einen Vergleich zu anderen qualitativen Tools herzustellen. Eventuell auch einen Vergleich zu quantitativen Tools?<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 16:22, 21. Feb. 2012 (CET)<br />
<br />
== Annotation - Intepretation ==<br />
<br />
"Die Elemente des Story Graphs lassen sich frei auf dem Workspace verschieben. Die Bögen können nun modifiziert werden, z.B. kann angegeben werden, welche Verbindungen für tatsächliche Ereignisse stehen, welche für rein hypothetische oder welche <span style="background-color:yellow;">z.B.</span> Kausalitäten beschreiben."<br />
<br />
ohne "z.B", nutzt du doppelt --[[Benutzer:SarahKoch|Sarah Koch]] 16:32, 21. Feb. 2012 (CET)<br />
<br />
Ansonsten find ich das Tool super erklärt :)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:WMatrixDiskussion:WMatrix2012-02-22T14:13:40Z<p>StephanieLeitz: </p>
<hr />
<div>== Automatische Arbeitsschritte ==<br />
<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. Für das POS Tagging wird auf das ebenfalls von der <span style="background-color:yellow;">Lancester? University</span> entwickelte Tool CLAWS zugegriffen<br />
<br />
Ohne "?" --[[Benutzer:SarahKoch|Sarah Koch]] 12:27, 22. Feb. 2012 (CET)<br />
<br />
== Allgemeine Voraussetzungen ==<br />
<br />
WMatrix wendet sich hauptsächlich an Nutzer in <span style="background-color:yellow;">Forschung- und Lehre.</span><br />
<br />
ohne "-"<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:28, 22. Feb. 2012 (CET)<br />
<br />
== Beispielanwendung ==<br />
<br />
"<span style="background-color:yellow;">*Erweiterung des Lexikons</span><br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise <span style="background-color:yellow;">„‘Madam“</span>. Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll.<br />
<br />
<span style="background-color:yellow;">*Kategorisierungen der Kontexte</span>"<br />
<br />
<br />
Bei der Aufzählung fehlt in der Formatierung jeweils das Leerzeichen. Bei "Madam" ist ein Apostroph zu viel.<br />
<br />
Ansonsten toll geschrieben :)<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:41, 22. Feb. 2012 (CET)<br />
<br />
Danke für die Korrekturen- wurden eingefügt. Das Apostoph vor Madam gehört da hin- aus genau dem Grund wurde es von dem System nicht erfasst. Ich habe die Erklärung hinzugefügt.<br />
<br />
Kann mir jemand vielleicht mit der Aufzählung helfen? Irgendwas stimmt da nicht....</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-22T14:13:03Z<p>StephanieLeitz: </p>
<hr />
<div>[[Image: logoWM.png|200px|right|Logo WMatrix]] WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Daten, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestütze Textanalyse repetetive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen.<br />
Prinzipiell sind oberflächenstrukturelle Fragen einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänome wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm , das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.<br />
<br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierte semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als Überrepresentaiv erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]]* Erweiterung des Lexikons<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]]* Kategorisierungen der Kontexte<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.<br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler]<br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br />
[http://openshakespeare.org/ -Open Shakespear]<br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:Keyness.pngDatei:Keyness.png2012-02-22T14:11:18Z<p>StephanieLeitz: Wmatrix</p>
<hr />
<div>Wmatrix</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:LogoWM.pngDatei:LogoWM.png2012-02-22T13:49:59Z<p>StephanieLeitz: WMatrix</p>
<hr />
<div>WMatrix</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:VoyantDiskussion:Voyant2012-02-22T13:48:13Z<p>StephanieLeitz: </p>
<hr />
<div>== Allgemeine Voraussetzungen ==<br />
<br />
In welchen Dataiformaten werden die Exportmöglichkeiten ausgegeben?<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 11:18, 22. Feb. 2012 (CET)<br />
<br />
== Logo ==<br />
<br />
Die Idee mit dem Logo find ich super!!<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:55, 22. Feb. 2012 (CET)<br />
<br />
Dito! Werde ich bei mir auch einfügen!<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 14:48, 22. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:WMatrixDiskussion:WMatrix2012-02-22T13:46:23Z<p>StephanieLeitz: </p>
<hr />
<div>== Automatische Arbeitsschritte ==<br />
<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. Für das POS Tagging wird auf das ebenfalls von der <span style="background-color:yellow;">Lancester? University</span> entwickelte Tool CLAWS zugegriffen<br />
<br />
Ohne "?" --[[Benutzer:SarahKoch|Sarah Koch]] 12:27, 22. Feb. 2012 (CET)<br />
<br />
== Allgemeine Voraussetzungen ==<br />
<br />
WMatrix wendet sich hauptsächlich an Nutzer in <span style="background-color:yellow;">Forschung- und Lehre.</span><br />
<br />
ohne "-"<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:28, 22. Feb. 2012 (CET)<br />
<br />
== Beispielanwendung ==<br />
<br />
"<span style="background-color:yellow;">*Erweiterung des Lexikons</span><br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise <span style="background-color:yellow;">„‘Madam“</span>. Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll.<br />
<br />
<span style="background-color:yellow;">*Kategorisierungen der Kontexte</span>"<br />
<br />
<br />
Bei der Aufzählung fehlt in der Formatierung jeweils das Leerzeichen. Bei "Madam" ist ein Apostroph zu viel.<br />
<br />
Ansonsten toll geschrieben :)<br />
<br />
--[[Benutzer:SarahKoch|Sarah Koch]] 12:41, 22. Feb. 2012 (CET)<br />
<br />
Danke für die Korrekturen- wurden eingefügt. Das Apostoph vor Madam gehört da hin- aus genau dem Grund wurde es von dem System nicht erfasst. Ich habe die Erklärung hinzugefügt.<br />
<br />
Kann mir jemand vielleicht mit der Aufzählung helfen? Und irgendwie lässt sich das eine Bild (Keyness) nicht anzeigen, obwohl ich es wiederholt hochgeladen und den selben Code wie für die anderen Bilder verwendet habe?</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-22T13:44:04Z<p>StephanieLeitz: </p>
<hr />
<div>WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
[[Image: Keyness.JPG|200px|thumb|left|Keyness Analysis]]<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Daten, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestütze Textanalyse repetetive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen.<br />
Prinzipiell sind oberflächenstrukturelle Fragen einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänome wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm , das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.<br />
<br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierte semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als Überrepresentaiv erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]]* Erweiterung des Lexikons<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]]* Kategorisierungen der Kontexte<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.<br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler]<br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br />
[http://openshakespeare.org/ -Open Shakespear]<br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-22T13:43:45Z<p>StephanieLeitz: </p>
<hr />
<div>WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester? University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
[[Image: Keyness.JPG|200px|thumb|left|Keyness Analysis]]<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist.<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Daten, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestütze Textanalyse repetetive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen.<br />
Prinzipiell sind oberflächenstrukturelle Fragen einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänome wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm , das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.<br />
<br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierte semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als Überrepresentaiv erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]]* Erweiterung des Lexikons<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“ (wird durch das Apostroph nicht erfasst). Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]]* Kategorisierungen der Kontexte<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.<br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler]<br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br />
[http://openshakespeare.org/ -Open Shakespear]<br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-21T23:17:00Z<p>StephanieLeitz: /* Beispielanwendung */</p>
<hr />
<div>WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung- und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester? University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
[[Image: Keyness.JPG|200px|thumb|left|Keyness Analysis]]<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist. (BILD)<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Daten, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestütze Textanalyse repetetive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen.<br />
Prinzipiell sind oberflächenstrukturelle Fragen einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänome wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm , das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.<br />
<br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Drama „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter: Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt, und dann aus versehen ihren Zwillingsbruder heiratet.<br />
<br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierte semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als Überrepresentaiv erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]]*Erweiterung des Lexikons<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“. Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]]*Kategorisierungen der Kontexte<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.<br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler]<br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br />
[http://openshakespeare.org/ -Open Shakespear]<br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-21T23:11:03Z<p>StephanieLeitz: </p>
<hr />
<div>WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung- und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester? University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
[[Image: Keyness.JPG|200px|thumb|left|Keyness Analysis]]<br />
Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist. (BILD)<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten, ermöglicht kreative Anfragen.<br />
<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
<br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu [[Di-Lemmata]] überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Daten, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [[AntConc]] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestütze Textanalyse repetetive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
<br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen.<br />
Prinzipiell sind oberflächenstrukturelle Fragen einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänome wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
<br />
WMatrix ist ein Programm , das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.<br />
<br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Bühnenstück „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter. Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt. <br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierte semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als Überrepresentaiv erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]]*Erweiterung des Lexikons<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“. Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]]*Kategorisierungen der Kontexte<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.<br />
<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler]<br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br />
[http://openshakespeare.org/ -Open Shakespear]<br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/HauptseiteHauptseite2012-02-21T23:03:22Z<p>StephanieLeitz: </p>
<hr />
<div>== Seminar ==<br />
<br />
In den letzten Jahren sind ganz neue Wege computergestützter Textanalyse entstanden. Sie erlauben es, Einzeltexte wie große Text-Korpora zu analysieren und das mit etablierten erzählanalytischen Verfahren wie mit ganz neuen Ansätzen, die erst der Computer ermöglicht. Das Seminar erprobt an ausgewählten Texten der Klassischen Moderne solche Wege, Literatur zu rechnen. Zum Einsatz kommen unterschiedliche Tools zur Annotierung, zum Textmining, zur Bestimmung von Textähnlichkeiten und andere Verfahren der Computerstilistik, der corpus narratology und Statistik u.a. Die Nutzung des eigenen Laptops ist hilfreich.<br />
<br />
<br />
== Ziele ==<br />
<br />
*Überblick über den wissenschaftstheoretischen Hintergrund (Stichwort: empirisches Arbeiten) sowie über die unterschiedlichen Forschungsansätze (Stichwörter: Korpuslinguistik, Text Mining)<br />
*Überblick über und teilweise Aneignung der basalen Konzepte und des Methodeninventars der computerbasierten Literaturanalyse (einige Stichwörter: Korpora, Parsing, Tagging, Frequenzanalyse, Kookurrenzanalyse, Textähnlichkeit, Stil, Algorithmen, Statistische Modelle)<br />
*Erprobung und Diskussion der Vorzüge, aber auch der Nachteile von ausgewählten Softwares und Analyseplatformen anhand von literarischen Texten (vornehmlich der klassischen Moderne)<br />
*Am Ende des Semesters sollten die Teilnehmerinnen und Teilnehmer einen Überblick über den aktuellen Forschungsstand auf dem Gebiet der computerbasierten Literaturanalyse haben<br />
*Darüber hinaus ist ein vertieftes Problembewusstsein für die empirische Seite literaturwissenschaftlicher Forschung angestrebt, ebenso wie ein basales Verständnis der Möglichkeiten empirischer Validierung literaturwissenschaftlicher Theorien.<br />
<br />
== Anweisungen zur Erstellung und zum Kommentieren von Einträgen ==<br />
*[[Struktur Wikieintrag TESTVERSION]]<br />
*[[Wiki Arbeitsschema]]<br />
<br />
== Tools ==<br />
*hier könnt Ihr Eure Tools verlinken<br />
*[[AntConc]]<br />
*[[CATMA]]<br />
*[[Di-Lemmata]]<br />
*[[Scheherazade]]<br />
*[[Voyant]]<br />
*[[WMatrix]]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-21T23:02:32Z<p>StephanieLeitz: </p>
<hr />
<div>WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung- und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester? University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
[[Image: Keyness.JPG|200px|thumb|left|Keyness Analysis: Semantische Tags]]Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== '''Benutzerfreundlichkeit ''' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist. (BILD)<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.<br />
<br />
== '''Fazit''' ==<br />
Insgesamt ist WMatrix ein umfangreiches Tool zur quantitativen Analyse von Texten. Durch das automatische Tagging ist der Zeitaufwand relativ gering. Gleichzeitig ist das Tool durch die statistischen Daten und durch den integrierten, bewährten Korpus für wissenschaftliche Fragestellungen gut geeignet. Die Möglichkeit, das Annotationslexikon manuell zu bearbeiten ermöglicht kreative Anfragen.<br />
Größtes Manko des Tools ist das Design. Im Vergleich zu anderen Tools ist es weniger zeitgemäß, und besonders für die fortgeschrittenen Funktionen wenig intuitiv. Auch muss man sich bei der Nutzung des eingebundenen Korpus und der Tagging Tools bewusst sein, dass sich diese auf Datensätze von 1991-1994 beziehen. Somit lassen sich sehr moderne oder sehr altertümliche Texte nur bedingt analysieren. <br />
Auch herrscht die Gefahr eines zu großen Technikvertrauens. So ist es aufgrund des Textumfangs nur schwer möglich, die vollständige automatische Annotation zu überprüfen. Wie im Anwendungsbeispiel deutlich wird, können einzelne Fehlzuweisungen, die nur indirekt mit der Fragestellung zusammenhängen, das Ergebnis beeinflussen. <br />
Nichtsdestotrotz ist WMatrix ein mächtigeres Tool als die quantitativen Tools für deutsche Texte, welche in diesem Wiki vorgestellt werden. Im Vergleich zu DiLemmata überzeugt bereits die größere Transparenz, die Möglichkeit jeden Text zu untersuchen, und die statistischen Daten, welche eine Eignung für wissenschaftliche Fragestellungen stärkt.<br />
Im Vergleich zu [http://litre.uni-goettingen.de/wiki/index.php/AntConc AntConc] übernimmt das Programm automatisch die Annotierung, welches einen geringeren Arbeitsaufwand bedeutet. Zudem sind die Analysetools neben Keywords auch für POS, MWEs und semantische Felder möglich. <br />
Da für die quantitative computergestütze Textanalyse repetetive Strukturen auf verschiedenen Ebenen relevant sind, sind für die Literaturwissenschaft Tools die neben Keywords, deren Analyse bereits verbreitet sind, auch POS, MWEs und semantische Felder umfassen, interessant. <br />
WMatrix eignet sich sowohl für ein exploratives Vorgehen, da man die Texte aus verschiedenen Blickwinkeln und Distanzen ohne großen Arbeitsaufwand untersuchen kann, als auch für hypothesengeleitetes Vorgehen, da sich durch die verschiedenen, auch in die Tiefe des Programms gehenden Funktionen, die Fragestellungen gut operationalisieren lassen.<br />
Prinzipiell sind oberflächenstrukturelle Fragen einfacher durch ein quantitatives Tool wie WMatrix zu analysieren als komplexe Phänome wie Spannung und Humor. Bei diesen könnte sich besonders die Konzeptionalisierung als schwieriger erweisen; hier müsste besonders auf eine präzise Operationalisierung geachtet werden, da alleine die Definition und die Charakteristik sich zum Teil als uneindeutig erweisen kann. <br />
Es darf jedoch weder bei oberflächenstrukturellen Fragen noch bei der Untersuchung von komplexen Phänomenen vergessen werden, dass der Forscher durch seine Interpretation der Fragestellung die Operationalisierung beeinflusst, und wiederum nur Daten erhält, die noch zu interpretieren sind. Denn die Phänomene, welche ein elektronisches Analysetool ausgibt, tragen für sich genommen noch keine eigene Bedeutung.<br />
WMatrix ist ein Programm , das in seiner Entstehungsgeschichte der Beobachtung Rommels entspricht: ein Tool aus der Computertechnik wird zu einem literaturwissenschaftlichen Werkzeug. Ein Werkzeug, das in seiner Komplexität und wissenschaftlichen Struktur einer Vielzahl an Fragestellungen dienlich sein kann, welche bislang nur unzureichend untersucht werden konnten. Ein solches Tool für deutsche Texte wäre wünschenswert.<br />
<br />
<br />
== '''Beispielanwendung''' ==<br />
Da WMatrix Tools involviert, welche sich auf die englische Sprache beziehen, wird an dieser Stelle eine Anwendung aus der Anglistik skizziert.<br />
Untersucht wird Shakespears Bühnenstück „ Twelfth Night, or What You Will“ (1601), unter dem deutschen Titel “Was ihr Wollt” bekannt. Dieses Stück ist stark geprägt von einem Verwirrspiel der Geschlechter. Die Protagonistin verkleidet sich als Mann, wird für einen Mann zum Liebesboten für eine Frau, die sich dann die in Protagonistin verliebt. <br />
Hypothese: Da Geschlechterrollen und ihre Verwechslung in „Twelfth Night“ eine große Rolle spielen, spiegelt sich dies auch sprachlich wider. Also sollten geschlechtsspezifische Personenbezeichnungen in „Twelfth Night“ im Vergleich zu anderen Dramen Shakespears häufiger verwendet werden. Dies würde sich in WMatix durch eine signifikant höheren Verwendung der Tags ‚‘‘S2.1 People: Female“ und „S2.2 People: Male“ nachweisen lassen. <br />
<br />
[[Image: Overused.JPG|200px|thumb|left|Overused Key Concepts]] Das zu untersuchende Drama wird als .txt Datei in WMatrix eingespeist, ebenso eine Datei mit den restlichen 36 Werken Shakespears, welche als Vergleichskorpus dient. WMatrix ermöglicht nun einen Vergleich der Schlüsselkonzepte von „Twelfths Night“ im Vergleich zu den anderen Shakespeardramen. Man erhält die links abgebildete Liste, welche die überdurchschnittlich repräsentierte semantische Felder aufzeigt. Weibliche Personenbezeichnungen sind mit einem Log-Likelihood von 62.21 auf dem 6. Rang, männlich Personenbezeichnungen mit einer Log-Likelihood von 6.30 auf dem 23. Rang. Bei einem Cut-off Point von LL 6.63 sind die weiblichen Personenbezeichnungen signifikant überrepräsentiert, die männlichen knappt unter dieser Grenze.<br />
<br />
Zu Beachten ist bei den Ergebnissen, dass die Rangliste erst dann aussagekräftig ist, wenn man alle andern wichtigen Kategorien reflektiert analysiert hat. So ist beispielsweise Rang 2, „Politics“, geprägt von der Fehlzuordnung des Vornamens „Fabian“ als politische Figur. Ohne diese Fehlzuordnung würde diese Kategorie nicht als Überrepresentaiv erfasst werden.<br />
<br />
Zur Verfeinerung der Ergebnisse wären zudem folgende Arbeitsschritte sinnvoll:<br />
[[Image: female.JPG|200px|thumb|left|Female Persons]]*Erweiterung des Lexikons<br />
WMatrix führt die Listen der erfassten Wörter auf. Diese sind zum Teil noch erweiterbar. Die Liste der unbekannten Wörter enthält Schreibeweisen, welche nicht erfasst worden sind, wie beispielsweise „‘Madam“. Auch währen für diese Analyse die Erfassung von „Brother“, „Sister“ und „Daughter“ in beiden Kategorien sinnvoll. <br />
<br />
<br />
[[Image: Women.JPG|200px|thumb|left|KWIC: Woman]]*Kategorisierungen der Kontexte<br />
Betrachtet man die Keywords im Kontext, zeigt sich, dass es verschiedene Verwendungen der Personenbegriffe gibt. So liegt häufig eine Anrede vor („So comes it , lady , you have been mistook“), in einigen Fällen Selbstbezeichnungen („As I am woman“), in einigen Fällen werden Geschlechter kontrastiert („You are betroth 'd both to a maid and man“).<br />
Durch eine nach Geschlechtern getrennte quantitative Untersuchung der Kontexte könnte man tiefergehende Einsichten erhalten. So beispielsweise, ob direkt über Geschlechter kommuniziert werden, oder in diesem Stück weibliche Personen mehr Gewicht erhalten.<br />
<br />
Die Ergebnisse zeigen bereits, dass geschlechtsspezifische Personenbezeichnungen eine größere Rolle spielen als in anderen Dramen Shakespears. Dabei sind es vor allen Dingen weibliche Personenbezeichnungen, die in den Vordergrund gerückt werden. Von welcher Art diese Personenbezeichnungen sind, müsste weiter analysiert werden, wie oben aufgeführt. Zum einen durch eine Bearbeitung der Tags, zum anderen durch eine Änderung der Lesedistanz, in den Kontext der Keywords hinein. WMatrix erlaubt beides.<br />
<br />
==Literatur==<br />
'''Weblinks'''<br />
[http://www.arts-humanities.net/forumtopic/interview_paul_rayson_wmatrix_text_mining -Bloginterview mit dem Entwickler]<br />
[http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf -WMatrix Vortrag]<br />
[http://openshakespeare.org/ -Open Shakespear]<br />
[http://ucrel.lancs.ac.uk/wmatrix/ -WMatrix]</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:Women.JPGDatei:Women.JPG2012-02-21T22:56:28Z<p>StephanieLeitz: WMatrix</p>
<hr />
<div>WMatrix</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:Female.JPGDatei:Female.JPG2012-02-21T22:52:06Z<p>StephanieLeitz: WMatrix</p>
<hr />
<div>WMatrix</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:Overused.JPGDatei:Overused.JPG2012-02-21T22:46:17Z<p>StephanieLeitz: WMatrix</p>
<hr />
<div>WMatrix</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-21T21:24:56Z<p>StephanieLeitz: </p>
<hr />
<div>== '''Kurzbeschreibung des Tools''' ==<br />
WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung- und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester? University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
[[Image: Semantisch.JPG|200px|thumb|left|Keyness Analysis: Semantische Tags]]Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== ''Benutzerfreundlichkeit '' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. Jedoch bezieht sich das Tutorial nicht auf die fortgeschrittenen Funktionen des Tools, welche sich nicht intuitiv erschließen (Beispielsweise die manuelle Bearbeitung des Lexikons).<br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist. (BILD)<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-21T17:03:20Z<p>StephanieLeitz: </p>
<hr />
<div>== '''Kurzbeschreibung des Tools''' ==<br />
WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung- und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester? University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich. Viele Tools sind wiederholt an unterschiedlichen Stellen eingebunden, so beispielsweise die Concordances, die Word Clouds und die Keywordsuche.<br />
<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung: <br />
<br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
====Advanced Interface====<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
[[Image: Semantisch.JPG|200px|thumb|left|Keyness Analysis: Semantische Tags]]Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== ''Benutzerfreundlichkeit '' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. <br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist. (BILD)<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die Semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/WMatrixWMatrix2012-02-21T16:58:15Z<p>StephanieLeitz: Die Seite wurde neu angelegt: „== '''Kurzbeschreibung des Tools''' == WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen int…“</p>
<hr />
<div>== '''Kurzbeschreibung des Tools''' ==<br />
WMatrix ist ein kostenpflichtiges Onlinetool zur quantitativen Analyse englischsprachiger Korpora. Es ermöglicht einen interfacegestützen Zugriff auf die automatischen Annotationsprogramme CLAWS und USAS. Auf Basis dieser Annotationen können mit WMatrix Frequenzanalysen von Keywords, Parts-of-Speach sowie semantischer Tags durchgeführt werden. Zusätzlich zu der automatischen Annotierung ist eine händische Bearbeitung der Annotationskriterien möglich.<br />
Entwickelt wurde WMatrix von Paul Rayson an der Lancester University, zunächst im Rahmen des [http://www.comp.lancs.ac.uk/computing/research/cseg/projects/revere/ REVERE Projekts], später im Zuge seiner PhD Arbeit. Dieses Wiki bezieht sich auf WMatrix3, die 2012 aktuellen Betaversion. <br />
Ein Zugang zu dem Tool ist unter [http://ucrel.lancs.ac.uk/wmatrix/ http://ucrel.lancs.ac.uk/wmatrix/]zu erhalten. <br />
<br />
== '''Allgemeine Voraussetzungen''' ==<br />
*WMatrix ist ein browserbasiertes Analysetool. Voraussetzung ist allein die Verwendung einer der drei Browserarten Internetexplorer, Opera oder Firefox. Die Benutzung kann somit betriebssystemunabhängig erfolgen. <br />
*Da es sich um ein Onlinetool handelt, ist eine vorhandene Internetverbindung notwendig; eine Offlinenutzung ist nicht möglich. <br />
*Zur Aufbereitung der Texte wird lediglich ein Textbearbeitungsprogramm benötigt. <br />
*WMatrix wendet sich hauptsächlich an Nutzer in Forschung- und Lehre. Angehörige der Lancester University können das Programm kostenlos nutzen, ansonsten ist es ein kostenpflichtiges Tool. Für universitäre Arbeitsgruppen ist es möglich, einen einmaligen Probezugang für einen Zeitraum von einem Monat zu erhalten. Danach kostet jeder Zugang £50, also knapp 60€ pro Jahr.<br />
<br />
== '''Detaillierte Beschreibung des Tools''' ==<br />
===Allgemeines===<br />
WMatrix3 bietet dem Nutzer zwei verschiedene Interfaces: ein Simple Interface sowie ein Advanced Interface. Die Funktionen des Tools werden im Folgenden anhand des Aufbaus beider Interfaces dargestellt. Dabei werden zunächst einmal die automatischen Arbeitsschritte eingegangen. Eine Erläuterung der händischen Arbeitsschritte erfolgt am Ende dieses Abschnittes.<br />
<br />
===Automatische Arbeitsschritte===<br />
Die Dateieinspeisung erfolgt in beiden Interfaces im Headermenü im Unterpunkt „Tag Wizard“. Die ausgewählte Datei wird mit zwei Layern automatischer Annotationen versehen: Erst findet ein Part-of-Speach Tagging (POS) statt, auf welchem ein semantisches Tagging aufbaut. <br />
Für das POS Tagging wird auf das ebenfalls von der Lancester? University entwickelte Tool [http://ucrel.lancs.ac.uk/claws/ CLAWS] zugegriffen. CLAWS berechnet die Wahrscheinlichkeit für eines der 160 möglichen Tags auf der Basis des British National Corpus (BNC). Diese automatische Zuweisung ist in 96-97% der Fälle korrekt.<br />
Das semantische Tagging erfolgt mit Hilfe von SEMTAG aus [http://ucrel.lancs.ac.uk/usas/ USAS], dem UCREL Semantic Analysis System. SEMTAG verwendet die POS Tags, um mit einer 92 % Korrektheit ein semantisches Tag zuzuweisen. Insgesamt gibt es 21 Überkategorien mit zahlreichen Unterkategorien.<br />
Die fertig annotierten Texte sind im Menü unter „My Folders“ aufgelistet. Die Annotationen selbst sind im Advanced Interface als xml Datei als Liste oder schematisch einsehbar. Dort sind auch dem System unbekannte Wörter unter „Unknown Words“ zu finden. Der Unterpunkt [[WMatrix#Händische Arbeitsschritte]] beschreibt, wie diese nachträglich ins System eingespeist werden können.<br />
Alle Wörter außer Pronomen werden als kleingeschrieben gewertet. Das System erfasst außerdem automatisch Multiple-Word-Expressions (MWEs). Diese werden als einzelnes Wort gewertet. Der Entwickler weist darauf hin, dass darum die Ergebnisse von WMatrix von den Ergebnissen anderer Tools abweichen können.<br />
<br />
===Analyse ===<br />
Die zur Verfügung stehenden Analysetools variieren je nach Interface. Der Zugang zu den Tools ist erst nach Auswahl eines annotierten Textes möglich.<br />
<br />
====Simple Interface====<br />
Im Simple Interface stehen vier Analysetools zur Verfügung.<br />
[[Image: simpleinterface.JPG|200px|thumb|left|Simple Interface]] <br />
*'''List of words and their frequencies'''<br />
Unter diesem Punkt werden die einzelnen Wörter und MWE aufgelistet. ‚‘‘Word‘‘ liefert eine alphabetische Auflistung, ‚‘‘frequency‘‘ eine Auflistung nach Häufigkeit im Verhältnis zum Gesamttext.<br />
*'''Word'''<br />
Dieser Unterpunkt enthält eine Suchmaske zum Durchsuchen des Gesamttextes. Die Ergebnisse werden auf einer neuen Seite als KWIC - Keyword in Context - in einem in der Länge frei wählbaren Kontext gezeigt. <br />
*'''Word Cloud'''<br />
Die Word Cloud in WMatrix visualisiert die Frequenz der Wörter im gewählten Text in Bezug zu einem Referenzkorpus. <br />
*'''Semantic Tag Cloud'''<br />
Diese Word Cloud stellt die Frequenzen der semantischen Tags im Vergleich zu einem Referenzkorpus da. <br />
Auswahlfilter für die Ergebnisse oder Statistiken stehen im Simple Interface nicht zur Verfügung.<br />
<br />
====Advanced Interface====<br />
[[Image: advancedinterface.JPG|200px|thumb|left|Advanced Interface]]<br />
Zum Advanced Interface gelangt man über das Headermenü („Switch to advanced Interface“). Die Ordneransicht “My Folder” bleibt gleich, jedoch ändert sich sowohl das Headermenü als auch die Toolübersicht. <br />
Die Übersicht ist in drei Teile gegliedert: Oben die unterschiedlichen Analysearten, in der Mitte manuelle Operatoren und unten verschiedene downloadbare Dateien.<br />
Um alle Frequenzen angezeigt zu kriegen ist es notwendig, im mittleren Feld „Manual operations and file conversions“ anzuklicken. Die entsprechenden Ergebnisse werden dann erst in der Toolübersicht aufgelistet.<br />
Alle Analysetools im Advanced Interface sind an Wörtern (inklusive MWEs), POS und semantische Tags anwendbar.<br />
*'''Frequency list'''<br />
Dieses Tool entspricht den Frequenz- und Wortlisten des Simple Interface, steht nun jedoch auch für POS und semantische Tags zur Verfügung. Wahlweise können die Wörter oder Tags alphabetisch oder nach Frequenz sortiert werden. Neben den Listen ist ein direkter Zugang zu den Concordances möglich. Zudem können die Listen durchsucht werden: in der Kategorie „Words“ nach einzelnen Keywords, WMEs sowie möglichen Akronymen, in den Taglisten nach Überkategorien. <br />
*'''Concordance'''<br />
Unter „Concordance“ sind die Wörter oder Tags im Kontext (Länge frei wählbar) aufgelistet.<br />
*'''Keyness analysis'''<br />
[[Image: Semantisch.JPG|200px|thumb|left|Keyness Analysis: Semantische Tags]]Dieses Tool erstellt Frequenzlisten eines Textes im Vergleich zu einem Korpus (siehe Unterpunkt [[WMatrix#Referenzkorpus]]). Die Sortierung erfolgt nach Log-Likelihood, und kann manuell mit einigen Filtern versehen werden: beispielsweise unter- und überdurchschnittlich häufig verwendete Items, Log-Likelihood Cut-off, MWEs und das Ein- bzw. Ausblenden bestimmter Items. <br />
Unter diesem Menüpunkt sind im Advanced Interface auch die Word Cloud und die SEMTAG Cloud einsortiert.<br />
<br />
====Inaktive Tools====<br />
Die folgenden Tools werden erst in die aktuelle Version implementiert: <br />
*'''N- & C-grams'''<br />
Unter N-gram versteht man Untersuchungen nach n- Zeichen langen Strings. WMatrix wird hier die Analyse nach 2-5 Zeichen langen Suchbegriffen ermöglichen. Collapsed-grams (c-grams) sind Zeichenketten, die Teil einer größeren Zeichenkette sind. Es kann so untersucht werden, welche 2-grams Teil welcher 3-grams sind, welche 3-grams Teil welcher 4-grams sind usw. Die Darstellung erfolgt als Baumstruktur mit dem kürzesten n-gram rechts, und dem längsten n-gram links. <br />
*'''Collocation'''<br />
Unter diesem Menüpunkt lassen sich verschiedene statistische Daten anzeigen, beispielsweise die Log-Likelihood, Phi-Square und verschiedene Koeffizienten.<br />
<br />
===Händische Arbeitsschritte===<br />
Neben den automatischen Arbeitsschritten sind auch händische Arbeitsschritte möglich. Zum einen können die Daten vor der Einspeisung händisch vorbereitet werden, um ein genaueres Ergebnis zu erzielen. Besonders bei einer Vielzahl an Sonderzeichen kann dies empfehlenswert sein. Eine [http://ucrel.lancs.ac.uk/claws/format.html Anleitung] für die Umformung in ASCII stellt der Entwickler zur Verfügung.<br />
Außerdem ist im Advanced Interface eine Lexikonerweiterung und -bearbeitung von CLAWS und USAS möglich. So können dem System noch neue Wörter hinzugefügt werden. Diese können zum Beispiel als unbekannt markierte Wörter sein, die in der Kategorie Z99 erfasst werden und unter XY einsehbar sind. Auch ist es möglich, weitere MWEs festzulegen, die für den zu untersuchenden Text relevant sind. Auch können neue semantische Labels erstellt werden, und so die Texte auf für die Fragestellung spezifische semantische Felder untersucht werden.<br />
Dies ist das wohl mächtigste Tool WMatrix, da eine spezifische Manipulation der Analysekriterien möglich ist, kreative Anfragen ermöglich werden und die Genauigkeit der Annotationen erhöht werden kann.<br />
===Referenzkorpora===<br />
Als Referenzkorpus können bereits vorgegebene Korpora oder ein eigener Korpus dienen. WMatrix erlaubt den Zugriff auf den [http://www.natcorp.ox.ac.uk/ British National Corpus ], auf dessen Basis auch die Wahrscheinlichkeit für das POS und USAS Tagging berechnet wurde. Das British National Corpus wurde zwischen 1991 und 1994 erstellt, und umfasst 100 Millionen Wörter. Neunzig Prozent entstammen dabei schriftlichen, zehn Prozent mündlichen Texten. In WMatrix kann man wahlweise auf den mündlichen Korpus, den schriftlichen, oder mehrere thematische Korpora (Business, Leisure, Educational, Institutional) zugreifen. <br />
Unabhängig von diesem vorgegebenen Korpus kann jeder andere in WMatrix eingespeiste und getaggte Text als Referenzkorpus verwendet werden. <br />
Somit ist es mit WMatrix möglich, sowohl einen Vergleich von einem Text mit einem ungleich größeren Korpus vorzunehmen, als auch gleichgroße Textmengen zu vergleichen.<br />
<br />
===Ausgabedaten===<br />
*Die Speicherung der hochgeladenen Texte auf den Servern der Universität, sowie damit verbunden die Speicherung der Ergebnisse, ist prinzipiell auf einen Monat beschränkt. Es ist jedoch möglich, wichtige Dateiordner online zu komprimieren und zu archivieren, um die Löschung zu umgehen. <br />
*Die Frequenz- und Taglisten sind als Rohdateien im .xml Format speicherbar. Die Dateien finden sich versteckt rechts nahe dem Headermenü unter dem Punkt „File Details“.<br />
*Visualisierungen: Word Clouds sowie semantische Clouds, in Zukunft die c-grams als Baum.<br />
*Statistiken: log-likelihood wird aktuell in den Frequenzlisten angegeben, jedoch wird man sich in Zukunft auch weitere statistische Ergebnisse anzeigen lassen können: Log-Likelihood, Phi-Square, Ochiai, McConnoughy Koeffizient, Yule Koeffizient, Fager und McGowan Koeffizient, Kulczinsky Koeffizent und Simple Matching Koeffizent. <br />
<br />
=== '''Daten-Einspeisung''' ===<br />
WMatrix unterstützt die Einspeisung einzelner Textdateien von einer Größe bis zu mehrere Millionen Wörter. Es wird jedoch darauf hingewiesen, dass in derart großen Datenmengen die Abfrage weniger effektiv sei . <br />
Die Textdateien müssen im ASCII Format vorliegen. Erlaubte Dateiformate sind: txt, HTML, SGML oder XML.<br />
Im Allgemeinen bedarf es keiner händischen Annotation der Texte, jedoch ermöglicht die optionale Überarbeitung eine höhere Trefferquote beim automatischen Tagen. So kann zu analysierender Text mit Tags eingeschlossen werden, und Sonderzeichen in ASCII Code umgeformt werden. Eine Seite mit [http://ucrel.lancs.ac.uk/claws/format.html Richtlinien] wird von den Entwicklern zur Verfügung gestellt.<br />
Ein automatisches Hochladen von Datensätzen oder ein nachträgliches Splitten oder Vereinen von Dateien ist in der aktuellen Version noch nicht möglich, jedoch bereits länger in [http://www.comp.lancs.ac.uk/~paul/publications/icame01.pdf Planung].<br />
Es wird kein Metadaten-Markup verwendet. <br />
<br />
== ''Benutzerfreundlichkeit '' ==<br />
===Allgemeine Benutzerfreundlichkeit===<br />
Die Hauptzielgruppe ist sind Universitäre Arbeitsgruppen. Ursprünglich richtete sich an Programmierer zur Unterstützung Neurolinguistischer Programmierungen. Ziel war es, den Zugriff auf CLAW und USAS mit einem Interface zu versehen, dass die Bedienung nicht nur über eine UNIX Komandozeile erfolgt. Insofern ist WMatrix bereits eine Verbesserung der Benutzerfreundlichkeit gelungen, da keinerlei Programmierfähigkeiten mehr gefragt sind. <br />
Durch zwei Interfaces ist ein schrittweises Kennenlernen des Programms möglich. Möchte man nur auf einfache Funktionen des Programmes zugreifen, kann man dies im Simple Interface tun, ohne sich tiefer in das Programm einarbeiten zu müssen. Das Advanced Interface ist jedoch nur bedingt übersichtlich.<br />
Für Neueinsteiger ist die automatische Annotation eine große Unterstützung. Wenn das simple Interface genügt, ist das Tool ohne Einschränkung zu empfehlen. Sollte eine tiefergehende Analyse gefragt sein, ist eine Einarbeitung in das Programm notwendig. Somit kann eine eingeschränkte Empfehlung für Neueinsteiger ausgesprochen werden.<br />
<br />
===Hilfestellungen===<br />
Die Benutzerfreundlichkeit erhöhen eine Reihe von Hilfestellungen. Zunächst einmal wird ein Tutorial zur Verfügung gestellt, in dem einer exemplarischen Fragestellung nachgegangen wird. Das Tutorial ist für die grundliegenden Funktionen recht umfassend, zum Teil sind die Links jedoch veraltet. Hilfreich sind da die abgespeicherten Zwischenergebnisse, die das Tutorial dennoch nachvollziehbar machen. <br />
Hilfestellungen und Hinweise sind auch im Programm selbst angebracht. Wann immer dies geschieht, ist ein kleines Männchen sichtbar, welches darauf hinweist. (BILD)<br />
Sehr hilfreich ist im Advanced Interface die Übersicht über die Semantischen Tags und POS Tags. Diese lassen sich über das Headermenü überall in einem Pop-up Fenster öffnen. Dieses ist sehr hilfreich, da auf die Tags an vielen Stellen nur über Kürzel wie Z99 verwiesen wird. Da die Tagliste sehr umfangreich ist (alleine 160 POS Tags) ist die Pop-up Lösung eine große Unterstützung in der Lesbarkeit der Ausgabedaten.<br />
<br />
===Kreative Anwendungen===<br />
Eine kreative Nutzung der Tools ist in großem Maße möglich. Ein Beispiel dafür ist ein Paper der [http://www.helsinki.fi/varieng/journal/volumes/02/ooi_et_al/ National University of Singapore] , welche das Z99 Tag „unbekannte Wörter“ zur Analyse von Internetsprache des Singapur Englisch verwendet. <br />
Besonders die Manipulation der Lexika ermöglicht kreative und individuelle Anfragen, und vermutlich auch eine sehr spezifische Operationalisierung.<br />
Durch eine kreative Nutzung ist bedingt auch eine Verwendung für deutsche Texte möglich: So ist es in jedem Fall möglich, sich die Wortfrequenz angezeigt zu lassen. Auch ist es mit dem „My Lexicon“ möglich, durch das Erschaffen von neuen Kategorien einzelne semantische Bereiche zu erfassen. Jedoch bedeutet dies eine deutliche Vergrößerung des Arbeitsaufwandes, da nicht auf das automatische Tagging zurückgegriffen werden kann. Damit wird die größte Stärke des Tools, das Zusammenspiel von automatischen und händischen Arbeitsschritten, nicht ausgeschöpft.<br />
<br />
== '''Transparenz''' ==<br />
WMatrix ist zwar kein Open Source Programm, ist in seiner Struktur jedoch soweit transparent wie es möglich ist. Da das Tool im wissenschaftlichen Kontext entstanden ist, gibt es auch eine wissenschaftliche Dokumentation, welche die Funktionsweise beschreibt und reflektiert. Die Kriterien für die Annotationen sind offen dargelegt. WMatrix verweist auf die Dokumentationen und Evaluationen dieser Tools. Die Annotationen sind, wenn auch recht unübersichtlich, jederzeit einsehbar, und in der „Unknown Words“ Liste wird offen gezeigt, wo die Programme an ihre Grenzen stoßen. <br />
WMatrix ist für einen universitären Rahmen geschaffen, und bietet somit die statistischen Daten, die für eine fundierte Auswertung benötigt werden. Dadurch, dass die Kategorien einsehbar sind und sogar überarbeitet werden kann man Schwächen der Annotationstools ausgleichen. Zudem ermöglicht dieser freie Zugang eine gute Operationalisierung. Gleichzeitig verlangen die Manipulationsmöglichkeiten eine gute Dokumentation der Arbeitsschritte, um das Kriterium der Wiederholbarkeit wissenschaftlicher Arbeiten zu erfüllen. <br />
Feedback ist erwünscht, vor allem weil sich das Tool grade im Betastadium befindet.</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:Advancedinterface.JPGDatei:Advancedinterface.JPG2012-02-21T16:41:27Z<p>StephanieLeitz: WMatrix</p>
<hr />
<div>WMatrix</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:Sematisch.JPGDatei:Sematisch.JPG2012-02-21T16:39:37Z<p>StephanieLeitz: Wmatrix</p>
<hr />
<div>Wmatrix</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:Simpleinterface.JPGDatei:Simpleinterface.JPG2012-02-21T16:38:53Z<p>StephanieLeitz: WMatrix</p>
<hr />
<div>WMatrix</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Diskussion:Struktur_Wikieintrag_TESTVERSIONDiskussion:Struktur Wikieintrag TESTVERSION2012-02-20T21:39:38Z<p>StephanieLeitz: Neuer Abschnitt /* Vorschlag */</p>
<hr />
<div>--[[Benutzer:Berenike Herrmann|Berenike Herrmann]] 12:15, 8. Feb. 2012 (CET)"Externer Link zum Tool" Der Link sollte irgendwo auf der Seite zu finden sein. U.a. aber besser in einem letzten Abschnitt, zusammen mit weiterer Literatur.<br />
--[[Benutzer:Berenike Herrmann|Berenike Herrmann]] 12:15, 8. Feb. 2012 (CET)Malte, können wir alle Literaturangaben zentral auf einer Seite machen?<br />
<br />
== Vorschlag ==<br />
<br />
[[Datei:Vorschlag.jpg]]<br />
Ich würde vorschlagen, eine solche Übersicht für die Tools in diesem Wiki zu erstellen.<br />
--[[Benutzer:StephanieLeitz|StephanieLeitz]] 22:39, 20. Feb. 2012 (CET)</div>StephanieLeitzhttp://litre.uni-goettingen.de/index.php/Datei:Vorschlag.JPGDatei:Vorschlag.JPG2012-02-20T21:34:45Z<p>StephanieLeitz: Vorschlag: eine solche Übersicht für die in diesem Wiki vorgestellten Tools zu erstellen, inklusive Links zu den entsprechenden ausführlichen Toolbeschreibungen</p>
<hr />
<div>Vorschlag: eine solche Übersicht für die in diesem Wiki vorgestellten Tools zu erstellen, inklusive Links zu den entsprechenden ausführlichen Toolbeschreibungen</div>StephanieLeitz