Korpora

Aus Literatur Rechnen - Neue Wege der Textanalyse
Version vom 6. Juni 2013, 13:54 Uhr von Berenike Herrmann (Diskussion | Beiträge)

(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Der sprachwissenschaftliche Terminus "Korpus" ist nicht nur durch sein grammatisches Geschlecht markiert (es heißt DAS Korpus), sondern ist, wie viele wissenschaftliche Begriffe, Gegenstand von anhaltender Diskussion. Wie Noah Bubenhofers Einführung in die Korpuslinguistik [1] verweisen wir hier zunächst auf Bussmanns Lexikon der Sprachwissenschaft:

 Definition nach Bussmann, Lexikon der Sprachwissenschaft
 Corpus [Neutr., Pl. Corpora; lat. corpus 'Körper']. Endliche Menge von konkreten sprachlichen Äusserungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen.   
 Stellenwert und Beschaffenheit des C. hängen weitgehend von den je spezifischen Fragestellungen und methodischen Voraussetzungen des theoretischen Rahmens der Untersuchung ab,  
 wie sich z.B. an der unterschiedlichen Einschätzung empirischer Daten im -> Strukturalismus und in der -> Generativen Syntax zeigt: Während der Strukturalismus bei der 
 Beschreibung von sprachlichen Strukturen ausschliesslich von beobachtbaren Corpora sprachlicher Äusserungen ausgeht, sich induktiver Aufdeckungsprozeduren (-> Segmentierung) 
 bedient, die Intuition der Forschenden als Beurteilungsinstanz ablehnt und die Gültigkeit der Aussagen auf das jeweils zugrunde liegende C. einschränkt, spielen Corpora in der 
 generativen Grammativ keine wesentliche Rolle. (Bussmann, H. [2008]. Lexikon der Sprachwissenschaft. 4. durchgesehene Auflage. Stuttgart: Kröner, S. 143)

Korpora


Zeno.org im TextGrid Repository: http://www.textgrid.de/Digitale-Bibliothek

Deutsches Textarchiv: http://www.deutschestextarchiv.de/

Beide Korpora streben Repäsentativität für deutschsprachige Literatur bis ca. 1900 an und haben sehr hohe editorische Standards.


Weitere Korpora, Korpus- und digitale Textsammlungen sind hier zu finden:

Projekt Gutenberg DE http://gutenberg.spiegel.de/

Project Gutenberg http://www.gutenberg.org/

AAC-Austrian Academy Corpus http://www.aac.ac.at/

Oxford Text Archives http://ota.ahds.ac.uk/catalogue/index-id.html

Das Mannheimer Korpus 1 und 2 (1949 – 1974) vom Institut für Deutsche Sprache, zusammen ca. 2,5 Mill. Wörter, verschiedene Genres und Register (nach Registrierung herunterladbar): http://www.ids-mannheim.de/kl/projekte/korpora/verfuegbarkeit.html

Übersicht von unterschiedl. Korpora bei Noah Bubenhofer: http://www.bubenhofer.com/

„Corpora from the Web“ http://hpsg.fu-berlin.de/cow/


Die freie digitale Bibliothek http://www.digbib.org/

Literaturnetz http://literaturnetz.org/

Wikisource http://de.wikisource.org/wiki/Hauptseite

GerManC Corpus http://www.ota.ox.ac.uk/desc/2544 a multi-genre representative corpus of Early Modern German from 1650-1800