TextGrid

Aus Literatur Rechnen - Neue Wege der Textanalyse
Wechseln zu: Navigation, Suche
Unser LitRe-Wiki ist seit 2012 nicht eingreifend überarbeitet worden. Es bildet also den damaligen Stand ab. Um Weiterentwicklungen der digitalen Textanalyse abzubilden, sollen nun die Artikel peu à peu überarbeitet werden, und weitere Artikel hinzukommen.

Interesse? Haben Sie Lust, einen Artikel zu überarbeiten oder neu zu verfassen? Schreiben Sie uns! Auch Kommentare, Kritik oder Fragen sind willkommen: mailto:bherrma1@gwdg.de

Work in progress, 26.01.2020

Bei TextGrid handelt es sich um eine, seit 2006 entwickelte, nachhaltige, virtuelle Forschungsumgebung. Das Ziel ist es, den Zugang und den Austausch von Informationen in den Geistes- und Kulturwissenschaften, möglich zu machen.

Insbesondere gilt dies gegenwärtig für die Humanwissenschaften, welche anhand von "digitalen Werkzeugen v.a. des philologischen Edierens und kollaborativen Arbeitens " profitieren. Ebenso soll es die Wissenschaften unterstützen und fördern und moderne Informationstechnologie, für digitale Editionsprojekte, nutzbar gemacht werden:

"TextGrid umfasst Werkzeuge, Infrastrukturentwicklung und Grid-Technologien. Geistes- und Kulturwissenschaftler werden durch TextGrid in die Lage versetzt, in einer verteilten, sicheren, flexiblen und erweiterbaren Forschungsumgebung zusammenzuarbeiten und gemeinsam Werkzeuge, Daten und Methoden zu nutzen." Siehe auch: "Warum TextGrid?" - Die Entwickler nennen 10 Gründe, 24.02.2012

Dabei sind insbesondere die beiden Tools TextGridRep und TextGridLab, nebst der transparenten, aktiven Community der Forscher zu nennen:

  • Bei TextGridRep handelt es sich um das Repository, eine digitale Bibliothek und geisteswissenschaftliches Langzeitarchiv.
  • Bei TextGridLab handelt es sich um das Laboratory, den Einstiegspunkt in die Virtuelle Forschungsumgebung mit zahlreichen Werkzeugen und Services.

Das aus zehn institutionellen und universitären Partnern bestehenden Verbundprojekt wurde seit Juni 2009 bis Mai 2015 vom Bundesministerium für Bildung und Forschung (BMBF) gefördert. TextGrid ist ein Projekt der D-Grid GmbH und Teil von WissGrid. Seit 2016 ist TextGrid Teil der DARIAH-DE Forschungsinfrastruktur.


Kurzbeschreibung

Die Beschreibungen orientieren sich stark an der Selbstpräsentation (Stand Januar 2020) von TextGrid.

Die Virtuelle Forschungsumgebung ist vorrangig in zwei unterschiedliche Komponenten aufgeteilt:

TextGridLab: dem TextGrid Laboratory, zu verstehen als der Einstiegspunkt in die Virtuelle Forschungsumgebung, mit Zugriff auf Werkzeuge und Services in einer intuitiv bedienbaren Software.
TextGrid Laboratory schreibt dazu:
   * Einstiegspunkt in die virtuelle Forschungsumgebung
   * Optimiert für die XML-/TEI-Erschließung z.B. im Rahmen digitaler Editionen
   * Werkzeuge und Services in einer anpass- und erweiterbaren Software
   * Einfache Integration weiterer Open Source-Tools über den "Market Place"
   * Differenziertes Zugriffs-Rechtemanagement innerhalb der geschützten Forschungsumgebung
TextGridRep: dem TextGrid Repository, das ein Geisteswissenschaftliches Langzeitarchiv in einer Grid-Infrastruktur darstellt, und damit eine langfristige Verfügbarkeit und Zugänglichkeit der Forschungsdaten garantiert.
TextGrid Repository schreibt dazu:
   * Digitales Langzeitarchiv für die Geisteswissenschaften
   * Garantiert die langfristige Verfügbarkeit und Zugänglichkeit Ihrer Forschungsdaten
   * Umfangreiche Suchmöglichkeiten, verschiedene Download-Formate und Visualisierungstools
   * Lektüre, Suchabfrage, Download und Nachnutzung XML-erschlossener Text-Corpora wie z.B. der Digitalen Bibliothek bei TextGrid

Des weiteren verfügt die Forschungsumgebung folgende Tools, Werkzeuge, Komponenten der Infrastruktur und Serviceangebote:

Editoren und Werkzeuge

  • XML-Editor
  • Unicode-Zeichentabelle
  • Text-Bild-Link-Editor
  • Wörterbuch-Recherche-Tool
  • Bildbetrachtungs- und Referenzierungstool DigiLib
  • Noten-Editor MEISE

Dienste und Features

  • Nutzer- und Projektverwaltung
  • Projektbrowser/Navigator
  • Recherche-Tool
  • Metadaten-Editor
  • Aggregation Composers
  • Import/Export-Tool
  • Revisionen
  • Publizieren (im Repository)


Der TextGrid Forschungsverbund besteht aus folgenden Partnern (Stand Januar 2020):

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW
DAASI International GmbH
Fachhochschule Worms
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)
Institut für Deutsche Sprache (IDS)
Max-Planck-Institut für Wissenschaftsgeschichte (MPI WG)
Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB)
Technische Universität Berlin
Technische Universität Darmstadt Institut für Sprach- und Literaturwissenschaft
Julius-Maximilians-Universität Würzburg Institut für Deutsche Philologie

Allgemeine Voraussetzungen (Stand 2020)

  • kostenfreie Nutzung von TextGrid – Open Source
  • kostenfreie Registrierung und Freischaltung nötig (ggf. Angabe der Forschungseinrichtung nötig)
  • Internetzugang zum Austausch in der Community und Zugriff auf TextGridRep/TextGridLab nötig
  • von einem USB Stick aus auch Zugang zu TextGridLap
  • Smartphone/Tablet (Android) möglich
  • TextGridLab ist verfügbar als aktuelle stabile Version: TextGridLab 3.3
  • Betriebssysteme: Linux, Mac OS X, Windows
  • aktuelle Version von Java nötig - z.Z. Java 8
  • browserbasierter, registierungsfreier Zugang und Zugriff zu TextGridRep
  • nutzbar für die Browser: InternetExplorer, Opera, Mozilla und FireFox, GoogleChrome, Safari
  • Die Digitale Bibliothek bei TextGrid öffentlich zugänglich, als Print- und Web-pdf Versionen kostenfrei herrunterladbar
  • Daten und Ergebnisse aus dem TextGridRep können exportiert und auf der lokalen oder externen Festplatte gespeichert werden, Daten und Ergebnisse aus dem TextGridLab können lokal, extern und online gespeichert, ex- und importiert werden
  • auf deutsch und englisch verfügbar

Detaillierte Beschreibung der beiden Tools

Abb. 1: TextGrid Avatar

Bei TextGrid handelt es sich in erster Linie um eine vernetzte Forschungsumgebung in den eHumanities, die eScience-Methoden für die Geisteswissenschaften anbietet. Das Ziel von TextGrid ist es, den Zugang und den Austausch von Informationen in den Geistes- und Kulturwissenschaften mit Hilfe moderner Informationstechnologie zu unterstützen. Der nebenstehende Avater zeigt die beiden großen Tools an, und verbindet diese symbolisch, wie in der Realität der Forschungsumgebung durch die dahinter liegende Technik. TextGrid als Ganzes ist eine internetbasierte Plattform,

"die Wissenschaftlern Werkzeuge und Dienste für die Auswertung von textbasierten Daten in unterschiedlichen digitalen Archiven bietet – unabhängig von Datenform, Softwareausstattung oder Standort. TextGrid entwickelt eine Virtuelle Forschungsumgebung für Philologen, Linguisten, Musikwissenschaftler und Kunsthistoriker." (Quelle: http://www.textgrid.de, 24.02.2012)
I.   Phase 2006-2009 umfasste nur Sprach- und Literaturwissenschaftler als Zielgruppe 
II.  Phase 2009-2012 umfasste nebst Sprach- und Literaturwissenschaft auch Musikwissenschaftler und   
     Kunsthistoriker
III. Phase 2012-2015 umfasste als Zielgruppe: Editionsphilologie, Linguistik, Altamerikanistik, Kunst- und Kirchengeschichte, Klassische    
     Philologie und die Musikwissenschaft. 

Der Schwerpunkt, bei der dritten Phase, war jedoch "die Etablierung eines nachhaltigen Dauerbetriebs: Software, Archiv und damit das gesamte Angebot werden in Zusammenarbeit mit AnwenderInnen, FachwissenschaftlerInnen und Fachgesellschaften und in Kooperation mit DARIAH-DE - Digital Research Infrastructure for the Arts and Humanities  auf eine nachhaltige und langfristige Basis gestellt." (Quelle: https://textgrid.de/projekt, 26.01.2020) Jetzt, in der neuen Phase, versteht sich TextGrid wie folgt: „Zielgruppen

  • FachwissenschaftlerInnen, die mit TextGrid Forschungsprojekte wie z.B. digitale Editionen erarbeiten
  • EntwicklerInnen, die TextGrid-Tools und Services für eigene Vorhaben anpassen oder externe Services und Tools in TextGrid integrieren
  • Forschungsprojekte und -institutionen, die Daten in TextGrid archivieren und zugänglich machen (Repository).“ (Quelle: https://textgrid.de/projekt, 26.01.2020)

Der Open-Source-Gedankens führt zu einem "digitalen Ökosystem" und dient dem freien Austausch „von einzelnen Komponenten und spezifische Anpassungen je nach den Bedürfnissen der Fachcommunities“. (Quelle: https://textgrid.de/projekt, 26.01.2020). Gegenwärtig (Januar 2020) befindet sich TextGrid somit in der Endphas,e mit einer offeneren Zielgruppe und spezifischeren Tools, die im Anschluss an die Struktur des Tools angeführt werden.

Die Struktur von TextGrid

Da sowohl TextGrid als Tools zu verstehen ist, als auch die inkludierten Tools, sind in den folgenden drei Grafiken Zusammenhänge und Funktionsweise sowie Zielgruppe abgebildet, nach dem Selbstverständnis von TextGrid:

TestGrid Lap Start.png

TextGrid Rep Start.png





Die Tools "Wörterbuch" und "Suche" im TextGridLab sowie das gesamte TextGridRep sind ohne Registrierung nutzbar: TestGrid Lap WB.png TestGridLab Suche.png Textgridrep.png

Exemplarische Darstellung einiger Funktion des Tools TextGridRep

Generell kann für das Rep festgehalten werden, wenn man sich nur auf der Rep-Oberfläche bewegt,

"Im TextGrid-Repository-Portal finden Sie derzeit eine begrenzte Auswahl von Texten des Literaturordners der Digitalen Bibliothek sowie zukünftig Forschungsdaten die mit TextGrid erarbeitet und publiziert wurden. Weitere Inhalte der Digitalen Bibliothek werden hier ab ca. Mitte Oktober bereitgestellt." Sortiert nach der Anzahl ihrer vorhandenen Iteams (quantitativ), nicht etwa alphabetisch. Man erreicht die Korporaübersicht über die Suchmaske auf dem Interface, über den Button Repository Content. Ein Abruf der Meta-Daten ist zu jedem Item möglich. Die folgende Gallerie zeigt Schritt für Schritt den Ablauf, wenn man einen Überblick über das Vorkommen von Schlagwörtern im vorhandenen Korpus (im Repository Content nach Iteam-Anzahl pro Autor zugeordnet: Tucholsky, Kurt (3595 items)) erlangen möchte, damit ist die quantiative, automatische Arbeit an dieser Stelle abgeschlossen. Das Korpus selbst besteht aus qualitativ, teilweise automatisch generierten XML-Dateien, in einer angenehmen Benutzeroberfläche. Über das Lab kann das Korpus qualitativ erweitert werden. Somit handelt es sich bei TextGrid je nach Tool und Erkenntnisinteresse um eine Mischform aus qualitativer und quantitativer Analyse.

Der Korpus der gegenwärtig öffentlich, ohne Registrierung einsehbaren Texte umfasst momentan (24.02.2012) Werke von folgenden Autoren, sortiert nach der Anzahl der vorhandenen Dokumente zu, von oder über den angegebenen Autoren: Im TextGrid-Repository-Portal finden Sie derzeit eine begrenzte Auswahl von Texten des Literaturordners der Digitalen Bibliothek sowie zukünftig Forschungsdaten die mit TextGrid erarbeitet und publiziert wurden. Weitere Inhalte der Digitalen Bibliothek werden hier ab etwa Mitte Oktober 2012 bereitgestellt.

   Tucholsky, Kurt (3595 items)
   Grillparzer, Franz (3406 items)
   Goethe, Johann Wolfgang (2232 items)
   Arnim, Ludwig Achim von (2108 items)
   Grimm, Jacob und Wilhelm (1994 items)
   Eichendorff, Joseph von (1068 items)
   Brentano, Clemens (685 items)
   Chamisso, Adelbert von (642 items)
   Fontane, Theodor (636 items)
   Droste-Hülshoff, Annette von (498 items)
   Gellert, Christian Fürchtegott (422 items)
   Kleist, Heinrich von (352 items)
   Bürger, Gottfried August (334 items)
   Gottsched, Johann Christoph (234 items)
   Hoffmann, E. T. A. (163 items)
   Fischart, Johann (151 items)
   Kafka, Franz (141 items)
   Börne, Ludwig (113 items)
   Novalis (70 items)
   Lichtenberg, Georg Christoph (51 items)
   Ebner-Eschenbach, Marie von (51 items)
   Immermann, Karl (49 items)
   Raabe, Wilhelm (38 items)
   Forster, Georg (38 items)
   Jean Paul (36 items)
   Arnim, Bettina von (30 items)
   Moritz, Karl Philipp (30 items)
   Klinger, Friedrich Maximilian (30 items)
   Nestroy, Johann (30 items)
   Schnabel, Johann Gottfried (28 items)
   Lewald, Fanny (23 items)
   Kotzebue, August von (23 items)
   Raimund, Ferdinand (23 items)
   Gotthelf, Jeremias (22 items)
   Wickram, Georg (21 items)
   Freytag, Gustav (21 items)
   Büchner, Georg (19 items)
   Keyserling, Eduard von (18 items)
   Iffland, August Wilhelm (18 items)
   Spielhagen, Friedrich (17 items)
   Ludwig, Otto (16 items)
   Heinrich Julius Herzog von Braunschweig-Lüneburg (16 items)
   Reuter, Christian (14 items)
   Grimmelshausen, Hans Jakob Christoffel von (14 items)
   Schlaf, Johannes (14 items)
   Jung-Stilling, Johann Heinrich (13 items)
   Gottsched, Luise Adelgunde Victorie (13 items)
   Wagner, Heinrich Leopold (13 items)
   Klingemann, August (12 items)
   Spyri, Johanna (11 items)
   Wackenroder, Wilhelm Heinrich (11 items)
   Nicolai, Friedrich (10 items)
   Müller, Robert (10 items)
   Schlegel, Dorothea (9 items)
   Loën, Johann Michael von (7 items)
   Ziegler und Kliphausen, Heinrich Anselm von (7 items)

Exemplarische Darstellung einiger Funktion des Tools TextGridLab

Mit der Erkenntnis, dass ein Projekt über Tucholskys Auseinandersetzung mit dem Recht in Goethes Faust existiert, lässt sich ein exemplarischer Blick auf einige Funktionen von TextGridLab werfen. Die restlichen Funktioinen des Labs finden sich in den folgenden zwei Unterkapiteln. Wie in der unten stehenden Gallerie erkennbar, unterscheidet sich die Benutzeroberfläche von dem Tool Rep zu Lab bereits. In der vorliegenden 1.0 Version sind nach aktuellem Stand nur wenige automatische Verfahren verfügbar (Lemmatisierung nur in der Beta-Version), der XML-Editor sei jedoch als teil-automatisches Tool erwähnt. Die meisten Funktionen im Lab sind somit händisch vorzunehmen, da sie Projektdaten auf- und vorbereiten. Beispielsweise die Import/Export Funktion und die Annotierungsmöglichkeiten mit beispieldweise dem Text-Bild-Link Editor, der semi-händisch ist. Somit sind die Ausgabedaten je nach verwendetem Tool unterschiedlich (*.xml, *.txt, *.jpg etc.). Visualisierungen sind in der Beta-Version möglich. In der folgenden Gallerie wird der Umgang mit dem Ergebnis der Recherche aus dem Rep exemplarisch gezeigt.

Eine andere Datei, z.B. eine *.jpg Datei hätte ermöglicht, den Text-Bild-Editor zu öffnen und z.B. bei einer Handschrift einen Teil des Bildes mit einem Begriff aus einem Wörterbuch anhand des Wörtbuch-Tools zu verbinden. Weitere Funktionen sind im TextGrid Manual detailliert beschrieben.

Aktuelle stabile Version 1.0 des TextGridLab

Die für diesen Artikel genutzte stabile Version 1.0 enthält drei konkrete Tools und zahlreiche Komponenten der Infrastruktur (bei denen es sich z.T. auch um Tools handelt), die der Natur des Forschungsverbundes entspringen und in der Selbstpräsentation durch TextGrid wie folgt in der Galerie beschrieben werden.

Das Interface für die Nutzung dieser Tools und Komponenten ist vergleichbar mit dem Screenshot des Recherche-Tools (s.o.). Ebenen lassen sie sich per maximieren oder minimieren in Windowsmanier anpassen.

Beta-Version von TextGridLab

Die Beta-Version enthält alle Tools und Komponenten aus der Version 1.0 und einige Zusatzfeatures die Aufgrund der Auseinandersetzung mit Version 1.0 an dieser Stelle noch nicht näher ausgeführt werden können. Leider sieht das User Manual bis zur finalen Veröffentlichung der Beta-Version auch noch keine näheren Ausführungen vor.

Daten-Einspeisung

Web-Storage-Charakter?

Generell kommt es bei TextGrid auf das spezifische Erkenntnisinteresse und den Bearbeitungswunsch an, wenn die Frage der möglichen Daten-Einspeisung näher beleuchtet werden soll. Da die Möglichkeit besteht, Projekte und in TextGridLab annotierte (oder vorher annotierte) Texte online zu speichern, so dass man von jedem beliebigen Rechner per USB Stick nach dem LogIn auf diese Daten zugreifen kann, sie importieren und exportieren kann, ist zunächst nahezu jedes Format einspeisbar, so dass ein Projektpartner sich dieses exportieren kann und anderweitig bearbeiten kann. Somit hat TextGrid gewissermaßen einen Web-Storage-Charakter, mit der Transparenz einer gewissen Chronik. Inwiefern die Dokumente im Anschluss nach dem "Zwischenspeichern" noch nutzbar sind außerhalb von TextGrid, und ob es somit wirklich als eine Art Web-Storage betrachtet werden kann, steht somit noch in Frage. Im Unterschied zu anderen Tools lassen sich Dateien des "falschen" Formats zumindest importieren, und das Lab such nach einem Editor, den es jedoch bei folgenden Dateitypen gegenwärtig (24.02.2012) nicht findet: *.rar, *.zip, *.pdf, *.doc, *.docx, *.odt, *.ppt, *.mp3, *.avi.

Unterstütze Formate

Problemfrei zu importieren und zu nutzen sind Dateien des Typs: *.txt, *.rtf, *.xml, *.jpg, *.png [Ergänzungen folgen] Auch bereits in TextGridLab erstellte *.xml TEI-Metadaten (TEI = Text Encoding Initiative) oder aus dem Rep exportierte Dateien sind einspeisbar und nutzbar. Eine Dateigrößenbeschränkung trat bisher nicht auf (Versuch bis 6MB Einzeldatei). Das Import-Tool des Labs ermöglicht per einfachem Drag&Drop das Zusammenstellen eigener Korpora innerhalb eines Projekts und erlaubt dabei explizit die Mischung verschiedener Dateitypen (z.B. *.png und *.txt), die diese, anders als bei bisherigen Tools, Text und Bild verknüpfen können. Jedoch können auch Einzeltexte hochgeladen werden. Vor-annotierte Texte sind möglich, da es sich um einen Forschungsverbund handelt liegt die Annotation im jeweiligen Interesse der Forschungsgruppe und kann z.Z. noch nicht ausreichend beantwortet werden. Ein *.xml Annotierung ist nützlich, kann aber auch im Lab vorgenommen werden. Die Urheberrechtsfrage ist bei den Texten, die im Rep verfügbar sind, transparent gemacht. Wünschenswert und möglich ist dies im Meta-Daten-Editor im Lab.

Benutzerfreundlichkeit

Allgemeine Nutzerfreundlichkeit

Die Fülle an Möglichkeiten kann den ungeübten Benutzer im ersten Moment überfordern, aber nach wenigen Minuten ist ein intuitives Bedienen von TextGrid möglich. Das Rep verfügt über eine benutzerfreundliche, optisch ansprechende Oberfläche. Gleiches gilt für das Lab, das durch die Ikone und Symbole auf den Buttons sehr intuitiv und benutzerfreundlich ist. Selbiges kann auch für die übersichtliche, sehr informative Homepage festgehalten werden, die auch über ein knappes F.A.Q. verfügt. Da es sich bei TextGrid um mehr als ein Tool, nämlich um eine Forschungsumgebung handelt, die als Zielgruppe Geistes- und Kulturwissenschaftlerln bei Austausch und Forschung eine Unerstützung sein soll, steht Benutzerfreundlichkeit an erster Stelle. Dies ermöglicht auch Einsteigern nach einer kurzen Einarbeitungsphase, eine Nutzbarmachung, je nach Erkenntnisinteresse. Das Wörtbuch-Tool beispielsweise, ist extrem intuitiv und durch seine Verknüofungen, interdisziplinär auch für Einsteiger sofort nutzbar.

Glossar

Neben einem knappen Eintrag auf der deutschen Wikipedia und der englischsprachigen Wikipedia, gibt das jedoch nur in englisch vorhandene, digitale (oder bei der SUB Göttingen gedruckt erfragbare) Benutzerhandbuch Hilfestellung. Da das TextGridLab selbst in englischer Sprache auftritt, ist ein Manual nur in englisch jedoch nicht störend. Vor allem im Hinblick auf den internationalen Austausch den TextGrid anstrebt, bietet sich diese Vereinheitlichung an. Korpora, Texte und Projekte sind jedoch auch problemfrei in deutsch eingespeist und einspeisbar.

Problembehandlung

Bei Fragen steht neben dem ausführlichen "Help"-Button im Lab außerdem das Team von TextGrid gerne per E-Mail zur Verfügung, oder die Nutzertreffen können Aufschluss geben. Das Team freut sich über Verbesserungsvorschläge und Erweiterungsideen ausdrücklich. Ein ausführliches Demo-Video (auch zum freien Download in hoher Qualität auf der Webseite verfügbar, Windows Media Player nötig) gibt erste Einblicke in die essentiellen Lab Tools. Bei der Nutzung der Editoren, vor allem des XML-Editors, sind basale Programmierkenntnisse von Vorteil, aber nicht zwingend nötig, da das Handbuch und das Demo-Video weiterhelfen. Auch einge YouTube-Videos, die exemplarisch Funktionen von TextGrid zeigen, sind verfügbar. Besonders spannend sind hierbei Vergleiche zwischen älteren, einige Jahre zurück liegenden, und jüngeren Videos, welche die Weiterentwicklung von TextGrid veranschaulichen.

Transparenz

Als wissenschaftliche Forschungsumgebung verfügt TextGrid wie wenig andere Tools über eine derartig enorme Transparenz. Das "Innenleben" der Tools und der gesamten Forschungsumgebund ist detailiert einsehbar und jeder Schritt der Weiterentwicklung, Fehlermeldung und Veränderungen nachvollziehbar.

Abb. 19: Transparenz des Innenlebens von TextGrid
Abb. 20: Feedback-Fomular auf der Entwicklerseite: http://www.textgrid.de
Abb. 21: Transparenz der im Archiv und für Arbeit nutzbaren Textedition sowie Downloadmöglichkeit der Meta-Deten im TEI-Format
Abb. 22: Transparenz bei Lizenzen im Rep


Anhand des Vorgangsnavigators lässt sich außerdem jeder einzelne Vorgang der Veränderung nachvollziehen, noch ausstehende Veränderungen oder den Status der Bearbeitung von Updates nachvollziehen. Inbesondere sorgt die Angabe des Namens des Bearbeiters für Transparenz.

Die Entwickler weisen auf ihrer Webseite auf bekannte Probleme wie mit der jüngsten Ubuntu-Version, Windows XP Darstellung bei der Beta-Version oder benötigte aktuelle Javaversion hin. Außerdem verweisen sie auf alle ihnen bekannten Fehler anhand des Ticket-System JIRA und bieten Hilfeleistung per E-Mail support(at)textgrid.de

Auch das explizit Angelegte Feedbackformular lädt ein, an dem Projekt aktiv mitzuarbeiten und es stetig zu verbessern. Die aktuelle Version TextGrid 1.0 wird als stabil beschrieben, die Beta-Version enthält deutlich mehr Tools, wird aber auch explizit als instabil betrachtet. TextGrid basiert auf der Open Source Community Software ECLIPSE.

Federführend für die Transparenz ist die Möglichkeit, sowohl im Lab als auch Rep Metadaten im Format TEI herunterzulanden. Neben einer absoluten Editionsklarheit, sind auch die Lizenzen im Rep gut nachvollziehbar.



Fazit

Auf ihrer Homepage nennen die Entwickler 10 Gründe, warum TextGrid unterstützenswert ist: "TextGrid umfasst Werkzeuge, Infrastrukturentwicklung und Grid-Technologien. Geistes- und Kulturwissenschaftler werden durch TextGrid in die Lage versetzt, in einer verteilten, sicheren, flexiblen und erweiterbaren Forschungsumgebung zusammenzuarbeiten und gemeinsam Werkzeuge, Daten und Methoden zu nutzen.

  • 1. Die TextGrid-Infrastruktur ermöglicht dank ihrer service-orientierten, modularen Architektur, die auf offenen Standards basiert, einen hohen Grad an Interoperabilität.
  • 2. TextGrid stellt eine Plattform bereit, durch die nahezu alles in einer einzigen Forschungsumgebung erfassbar wird. Der komplette wissenschaftliche Arbeitsablauf soll abgedeckt werden: Vom Sammeln und Generieren von Primärdaten bis hin zu Veröffentlichungen. TextGrid ermöglicht einen freien und einfachen Zugriff auf eine stetig wachsende Anzahl von wissenschaftlichen Ressourcen.
  • 3. Die Grid-Technologie stellt Ressourcen für die Datenverarbeitung und -speicherung bereit. Damit ist es nicht mehr notwendig projektspezifische Ressourcen extern zu erwerben, zu konfigurieren oder aufrechtzuerhalten.
  • 4. TextGrid ermöglicht dezentrale gemeinschaftliche Forschungsarbeiten.
  • 5. TextGrid bietet Sicherheit und Verlässlichkeit durch eine feingliedrige Rechteverwaltung und die Speicherung der Daten im Grid. Eine ständige Verfügbarkeit und Ausfallsicherheit der gespeicherten Daten wird durch die D-Grid-Infrastruktur garantiert.
  • 6. TextGrid ist flexibel: Eigene Projekte können organisiert und Arbeitsläufe spezifisch definiert werden. Die gesamte Arbeitsumgebung kann an fachspezifische Bedürfnisse angepasst werden.
  • 7. TextGrid ist erweiterbar: Existierende Werkzeuge können erweitert und eigene hinzugefügt werden - entweder als (externer) Web-Service oder als interaktives Tool in der Eclipse-Rich-Client-Plattform.
  • 8. TextGrid basiert auf offenen Standards (Dateiformate, Schnittstellen, Protokolle, etc.) und ermöglicht damit den Austausch und die Wiederverwendung der Daten und Tools.
  • 9. TextGrid ist ein open-source-Projekt. Sämtliche Werkzeuge und viele Inhalte sind frei zugänglich und dokumentiert, so dass alle Wissenschaftler in der Entwickler-Community mitwirken können.
  • 10. TextGrid erlaubt die mittel- und langfristige Archivierung der Projektdaten (auch nach dem Ende der Projektlaufzeit im Jahre 2012), in Übereinstimmung mit den Grundsätzen zur Sicherung guter wissenschaftlicher Praxis der Deutschen Forschungsgemeinschaft." (Quelle: http://www.textgrid.de/ueber-textgrid/warum-textgrid.html, 24.02.2012)

Den 10 Gründen TextGrid zu verwenden, kann nach der Analyse und Verwendung der Tools auf ganzer Linie zugestimmt werden. In erster Linie ist TextGrid als Forschungsumgebung, und nur in zweiter Linie als Tool im Sinne des Seminars zu fassen. Daher fällt der Vergleich mit Tools wie WMatrix, CATMA, Voyant oder AntConc schwer bis garnicht zu ziehen. Da TextGrid erweiterbar durch andere Tools ist, als die vorhandenen, würde es sich anbieten, zur reinen computergestützten Analyse von Texten Tools wie CATMA oder Voyant zu integrieren, ähnlich dem Wörterbuch-Tool, dass aus verschiedenen Wörterbüchern gespeist wird, da TextGrid als reines Analyse-Tool im Sinne von beispielsweise 'Part-Of-Speech-Tagging' oder 'Konkordanzanalysen' und beim semantischen Taggen, noch deutliche Lücken aufweist. Dies ist mit der Natur der Forschungsumgebung zu erklären. Ungeschlagen ist daher auch die wissenschaftliche Transparenz und Benutzerfreundlichkeit. Dennoch ist die Arbeit mit TextGrid nicht die Arbeit mit einem Tool, dass nach der Einspeisung per Knopfdruck ein Ergebnis bietet und grafisch präsentiert wie CATMA oder WMatrix, sondern eine spezifische Fragestellung ist nötig, ebenso wie detaillierte Vorarbeit. (Die Beta-Version bietet für Musikwissenschaftler jedoch eine potentielle grafische Darstellungsform.) Im Sinne des Seminars kann TextGrid als eine Art Aufbereitungstool verstanden werden, falls man es auf kleine Toos des Labs beschränkt. Doch bietet die Community qualitativ andere Ressourcen, da die Rückmeldung von aktiven, gegenwärtigen, natürlichen Personen als Grundidee der Forschungsumgebung ein anderes Ziel verfolgt, als anere Tools. Die Arbeit mit TextGrid ist somit mehr das Einlassen auf Austausch, entwickeln von Ideen, dokumentieren von Projekten und nicht die quantiative Foschungsmethode schlechthin. Damit wird im Vergleich zu anderen Einzel-Tools, eine andere Dimension von computergestützer Arbeit mit literarischen Texten generiert (vgl. Rommel 2004).

Die Entwickler selbst sind sich der Differenz zu anderen Tools, aber auch der zukunftsweisenden für die eHumanities bewusst, indem sie postulieren:

"TextGrid ist eines der ersten Projekte, die e-Science Methoden und Grid-Technologien für die Geisteswissenschaften verfügbar machen. Dieses Gebiet birgt ein ungeheures Potenzial zur Erleichterung, Verbesserung und Intensivierung von Forschungsprozessen und muss für die Geisteswissenschaften weiter erschlossen werden. TextGrid fungiert hier als Inkubatorprojekt für Folgeaktivitäten aus den Geisteswissenschaften." (Quelle: www.textgrid.de, 24.02.2012)

Eben die Tatsache dass es sich mehr um einen Forschungsverbund, als um ein Tool handelt, führt dazu, dass der Zeitaufwand zur Vorbereitung von Projekten recht hoch ist. Die händische Bearbeitung wird durch die Tools jedoch - intuitiv - unterstützt. Die automatischen Generierungen hingegen, sind wenig zeitaufwändig, wie z.B. der Text-Image-Editor. Aufgrund der Transparenz und Dokumentation der Projekte, und der unanfechtbaren Wissenschaftlichkeit (z.B. der Wörterbücher), kann generell von Zuverlässigkeit gesprochen werden. Durch Beta-Version Tools wie z.B. Lemmatizer, verringert sich die händische Vorbereitungszeit, und bietet damit schneller Editionen die mit Text-Mining Tools bearbeitet werden können. Vorannotierte Projekte, oder exportierbare Dateien aus dem Rep oder den Wörterbüchern eignen sich bereits dafür. Quantitativ ist vor allem das Rep für oberflächelstrukturelle Fragen geeignet. Anhand der Ergebnisse des Reps ist auch Hypothesengenerierendes Arbeit möglich, wenngleich exploratives Arbeiten durch die Natur des Forschungsverbundes mit vielen kleinen Tools intuitiver erscheint. Komplexere Fragestellungen erfordern eine größere händische Aufbereitung, werden jedoch durch die Tools angenehm gestützt, wie die Beispielanwendung zeigt. Bis dahin kann nur abgewartet werden, bis TextGrid seinen Kinderschuhen entwächst und mit der Beta-Version ein mächtiges geisteswissenschaftliches Tool liefert.

TextGrid als Community eröffnet computergestützte Literaturarbeit im Sinne Rommels (2004): Weg von einer einzelnen subjektiven Meinung hin zu empirischer Objektivität durch Austausch, Tools und Transparenz.

Kommunikation von und über TextGrid

Der Verein TextGrid e.V. dient der "persistenten Sicherstellung des fachwissenschaftlich nachhaltigen Gebrauchs der Angebote der TextGrid-VFU in einer heterogenen Community wissenschaftlicher Nutzerinnen und Nutzer." (Zitat:http://www.textgrid-verein.de/index.html) Der TextGrid e.V. unterstützt die inhaltliche Arbeit, durch Kommunikation von Mehrwert und Nutzen, von TextGrid in der Wissenschaft. Des weiteren findet man auf der Homepage die stetig wachsende, aktive Community, mit immer neuen Projekten und Veranstaltungen, und auf Twitter.

Twitter textgrid.png

Tutorials und Online-Hilfe

Für eine Online-Hilfe hat DARIAH-DE ein spezielles Wiki herausgebracht, unter Anderem für TextGrid.

Die TextGrid-Tutorials als Texte oder PDFs, zeigen typische Abläufe bei der Arbeit, mit dem TextGridLab Schritt für Schritt.

TextGrind verfügt zudem seit 2014 über einen Youtube-Kanal mit 12 Beiträgen und einem eigenen Videokanal. Hier kann jeder kostenfrei TextGrid-Videotutorials anschauen und das Vorgehen visuell verstehen.

TestGrid Tutorials.png

Beispielanwendung

Vorüberlegungen und Hypothese(n)

Rommel (2004) konstatiert den invertierten Ausgangspunkt meiner (bereits im Vorfeld getroffenen und durch seinen Text gestützen) Überlegungen:

"even the earliest forms of oral literature were practiced in a context of descriptive and prescriptive aesthetics. With the rise of written literature emerged a canon of rules that could be applied to text in order to evaluate its adherence to poetic norms and values, and very soon quantitative and qualitative methods of text analysis were applied in textual exegesis."

In nuce: Als Sprech- und Sprachwissenschaftlerin, sowie insbesondere als Kulturanthropologin, liegt mein Erkenntnisinteresse gegenwärtig auf der verschriftlichen Repräsentation von Mündlichkeit. Eine Forschungsumgebung wie TextGrid, die sich explizit nicht nur an Linguisten und Literaturwissenschaftler wendet, sondern auch andere Geistes- und Kulturwissenschaften, wie die Kulturanthropologie inkludiert, erschien mir als optimal geeignet, um mich mit der Repräsentation von Mündlichkeit zu beschäftigen. Im Erkenntnisinteressenschwerpunkt lag ein konkreter Text des deutschen Poetry Slam Meisters Slam Sebastian23.

Im Folgenden werden also nun Überlegungen und Versuche beschrieben, wie TextGrid bei der Arbeit an einem nicht vor-annotierten Text unterstützen kann. Das Ziel war, eine knappe synchrone Analyse des Textes "Identität" vorzunehmen, und zu erproben, wie TextGrid dies ermöglicht oder ggf. erleichtert. Damit soll eine Basis geschaffen werden, um später einen Vergleich mit mittelalterlicher Minnelyrik - beispielsweise dem Kürenberger Falkenlied - aus kultur- und lieraturwissenschaftlicher Sicht zu erstellen. Beide Text sind konzeptionell für den mündlichen Vortrag gedacht, und eignen sich daher außerdem zum diachronen Vergleich der Repräsentation von Mündlichkeit in der Verschriftlichung. Sprechwissenschaftlich ist es zudem spannend, zu betrachten dass diese beiden mündliche Texte ohne Intonationsnotizen (zum Vortrag im Sinne der vermeintlichen Autorintention) gedruckt wurden. Kulturwissenschaftlich ist an sich die Frage spannend, warum mündlich konzipierte Texte überhaupt verschriftlicht werden (müssen), wo es doch ein Kulturelles Gedächtnis auch über die Jahrhunderte gibt.

Primäres Untersuchungsobjekt

Sebastian 23 – Identität
Im tiefen, klaren Ozean 
schwimmt ein gestörter Pavian!
Er leugnet dreist sein Affentum
und sucht nun bei den Fischen Ruhm!
Er hat sich einfach kahlrasiert, 
ein Schuppenmuster tätowiert,
und gleitet so durch's weite Blau:
Er träumt von einer Thunfisch-Frau!
Jedoch die Fische, die trifft, 
wirken auf ihn wie bekifft!
Er gibt sich ernst, doch was er macht:
Er wird vom Fischvolk ausgelacht!
Der Grund dafür ist leicht erraten, 
er wird ihn nie los, den Primaten,
und imitiert den Hochseehecht
zwar leidenschaftlich, aber schlecht!
Frustriert kehrt er zurück an Land, 
und zahlt so seiner Gene Pfand!
Doch ziemlich schnell findet er raus:
Jetzt lacht man ihn hier auch noch aus.
Die Schuppen-Tattoos geh'n nicht ab: 
Er bleibt ein Halb-Fisch bis zum Grab!
Verloren zwischen beiden Welten,
kann für ihn ein Ziel nur gelten:
Er hebt voll zuversicht die Arme 
und fängt zu flattern an
und fliegt zur Sonne, in das Warme
als ein Vogel-Pavian!

In: Petra Anders (Hg.): Texte und Materialien für den Unterricht. Slam Poetry. Für die Sekundarstufe. Stuttgart 2008, S.35-36.

Vorgehen

Text-Suche und Projekt/Usermanagement

Nach den Vorüberlegungen stand zunächst im Fokus meines Interesses eine knappe semantische Analyse des poetischen Textes vorzunehmen. Da ich mich in einem Forschungsverbund bewege, wollte ich zunächst in Erfahrung bringen, ob der Text schon annotiert im Langzeitarchiv TextGridRep vorhanden ist. Die Suche war jedoch leider ergebnislos. Somit galt als nächstes, auf die Tools des TextGridLabs zurückzugreifen, und nach dem LogIn die Suchfunktion für alle öffentlichen Projekte, Volltexte und Metadaten zu nutzen. Die Suche nach "Sebastian23", "Poetry Slam" und "Slam" war jedoch ergebnislos. Ich hatte die Hoffnung, auf einen Forscher zu treffen, der sich zur Zeit mit einem ählichen Projekt beschäftigt, von Slam Poetry weiß man anscheinend jedoch noch nichts bei TextGrid. So galt es als nächstes ein neues Projekt anzulegen, die Meta-Daten mit "Poetry Slam", "Sebastian23" und "Identität" auszustatten, so dass ein anderer Forscher das Projekt finden kann. Als nächstes beschloss ich eine mir namentlich bekannte andere Person per "User Managament" in mein Projekt als "Observer" einzustellen. Diese Person kann nun meine Projektarbeit verfolgen. Trotz der "Name@textgrid.de" Nutzerkennung dient dies jedoch nicht als "E-Mail-Kommunikationsbasis", für den direkten Austausch. Das halte ich jedoch für eine sinnvolle Ergänzung, da es sich ja um einen Forscherverbund handelt.

Importieren, annotieren und Projektabschluss

Da der Text nicht vorhanden ist, entnahm ich ihn der einzigen Quelle, einem Reclam-Heft, und importierte die Datei als *.txt Datei. Hätte ich ein Foto von der Handschrift von Sebastian 23 hätte ich dieses gern verwendet, um eine Annotierung mit dem Text-Image-Link Editor vorzunehmen. Dieses Bild gibt es leider nicht. Somit beschloss ich mich zunächst auf die semantische Annotierung des Textes anhand des Wörterbuch-Tools zu konzentrieren. (Da ich mit der stabilen 1.0 Version, und nicht der instabilen Beta-Version arbeite, kann ich leider noch nicht auf das Tool "Lemmatizer" zurückgreifen, das es erlaubt hätte, die automatisierte Rückführung einer Wortform auf ihr Lemma vorzunehmen. "Einzelne Wörter können via Kontextmenü direkt aus dem XML-Editor lemmatisiert werden. Komplette Texte können über das Tool automatisch mit Lemmata ausgezeichnet werden."(TextGrid)) Einzelne Wörter wie "Pavian" kann ich nun also mit dem Wörterbuch-Tool herausarbeiten und direkt mit dem Wort in meiner XML Datei verknüpfen, so dass in der finalen Ausgabeversion dann der Wörterbucheintrag abrufbar wäre. (Das selbe böte sich für den mediävistischen Text an, hier könnte man sich dann für eine diachrone Betrachtung der Texte entscheiden, indem man beide Texte beispielsweise mit dem Mittelhochdeutschen Wörterbuch, dem Grimm'schen und dem Grammatisch-Kriitischen Wörterbuch verknüpft und so auf Bedeutungsunterschiede und damit naheliegende Interpretationsunterschiede schließen könnte). Mit der semantischen Annotierung nähert sich TextGrid für diese spezielle Fragestellung ohne weitere Unterstützung (anderer Forscher, Literatur, Medien) nahezu dem Ende. Die Beta-Version lässt durch Möglichkeiten wie das Noten-Editor-Tool MEISE jedoch darauf hoffen, dass es zukünftig möglich sein wird, Texte auch mit Intonationszeichen zu annotieren und beispielsweise ähnlich dem Text-Image-Editor-Tool auch *.avi und*.wav/*.mp3 Dateien nutzen und verknüpfen zu können, um auch die Sprechweise mit aufnehmen zu können. (Die Phonetiker unter den Linguisten würden sich sicherlich freuen.) Abschließend wäre noch eine Edition anhand der IPA-Transkription möglich, die jedoch auch (nach meinem gegenwärtigen Kenntnisstand) komplett händisch eingegeben werden müsste, sich aber auch nur der Standardlautung und nicht der Sprechweise des Autors annähern würde. Bei einem mediävistischen Text wäre selbstverständlich nur eine vermeintliche Intonations-Edition möglich, hier wäre der Text-Image-Editor für eine Handschrift des Falkenliedes jedoch sehr nützlich. Das Hochladen verschiedener Dateien (Text, IPA-Edition, Meta-Daten, *.avi und *.mp3, Bild der Handschrift) könnte noch mit dem Aggregations-Tool gebündelt werden. Zwischenstände könnten anhand von Revisionen dokumentiert werden, um Änderungen zu identifizieren. Nach erfolgreichem Abschluss des Projekts, könnte es im Repository publiziert und dem Langzeitarchiv verfügbar gemacht werden, dabei würde es unterstützt durch eine automatische Metadatenvalidierung.

Fazit der Anwendung

Die Forschungsumgebung TextGrid bietet deutlich nützliche Tools, v.a. das Wörterbuch-Tool in Verbindung mit dem Editor. Insbesondere das anschließend leichte publizieren, die Transparenz und die Möglichkeit, andere Forscher in ein Projekt einzubeziehen, eröffnen große Möglichkeiten. So groß allerdings, dass man alleine nicht zwingend befriedigende Ergebnisse erzielt, wenn man eine sehr spezifische Fragestellung hat, wie in meinem Fall. Die Unterstützung aus der Community ist hierbei der markante Dreh- und Angelpunkt. Diese fehlte mir gänzlich, da die "*@textgrid.de" E-Mailadresse keine ist, mir die Meta-Kommunikation somit abgesehen von Nutzertreffen noch unschlüssig ist. Der erste Schritt der Annotierung anhand des Wörterbuch-Tools ist jedoch sehr komfortable und bietet einen leichten, wissenschaftlich vailden Zugang. Auch die im vorherigen Abschnitt beschriebenen Optionen der Bild-Text Editierung oder der Bündelung von Projektdaten, ebenso wie die Transparenz der Forschungsumgebug sind gewinnbringend. Das Erscheinen einer stabilen Beta-Version eröffnet weitere Möglichkeiten, die dann nochmal erprobt werden müssen.

Literatur

Verwendete Literatur

  • Anders, Petra (2008): Texte und Materialien für den Unterricht. Slam Poetry. Für die Sekundarstufe. Stuttgart 2008, S.35-36.
  • Rommel, Thomas (2004): Literary Studies. In: Susan Schreibman, Ray Siemens, John Unsworth (Hrsgg.): A Companion to Digital Humanities. Oxford: Blackwell, http://www.digitalhumanities.org/companion/, 24.2.2012.
  • TextGrid – Virtuelle Forschungsumgebung für die Geisteswissenschaften, http://www.textgrid.de/, 24.02.2012

Weiterführende Literatur von / zu / über TextGrid

Ein Verzeichnis aller aktuellen Publikationen findet sich hier: http://www.textgrid.de/berichte.html, (Stand: 02.09.2012).

Weblinks