Institut

Studium

Forschung


 

Huge German Corpus (HGC)

Typ Corpus
Titel Huge German Corpus (HGC)

Beschreibung

Das "Huge German Corpus" (HGC) ist eine Sammlung deutschsprachiger Texte (Zeitungsartikel und Rechtstexte), das für die Nutzung mit der IMS Corpus Workbench (CWB) aufbereitet ist. Es umfasst ca. 204 Millionen Token inklusive Satzzeichen (davon ca. 180 Millionen "richtige" Textwörter) in 12,2 Millionen Sätzen. Das Korpus wurde automatische mithilfe des TreeTaggers (Schmid 1994) in Sätze segmentiert und mit Lemma und Wortarteninformationen angereichert (STTS-Tagset, Schiller et al. 1999).

Die Rohdaten basieren teilweise auf der Kollektion des "European Corpus Initiative Multilingual Corpus I" (ECI/MCI).


Referenz

Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart.

Helmut Schmid. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing, Manchester, UK.