Huge German Corpus (HGC)

Das "Huge German Corpus" (HGC) ist eine Sammlung deutschsprachiger Texte (Zeitungsartikel und Rechtstexte), das für die Nutzung mit der IMS Corpus Workbench (CWB) aufbereitet ist

Huge German Corpus (HGC)

Typ
Corpus
Beschreibung

Das "Huge German Corpus" (HGC) ist eine Sammlung deutschsprachiger Texte (Zeitungsartikel und Rechtstexte), das für die Nutzung mit der IMS Corpus Workbench (CWB) aufbereitet ist. Es umfasst ca. 204 Millionen Token inklusive Satzzeichen (davon ca. 180 Millionen "richtige" Textwörter) in 12,2 Millionen Sätzen. Das Korpus wurde automatische mithilfe des TreeTaggers (Schmid 1994) in Sätze segmentiert und mit Lemma und Wortarteninformationen angereichert (STTS-Tagset, Schiller et al. 1999).

Die Rohdaten basieren teilweise auf der Kollektion des "European Corpus Initiative Multilingual Corpus I" (ECI/MCI).

Referenz

Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart.

Helmut Schmid. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing, Manchester, UK.

Download

Das Korpus steht leider nicht zur Verfügung. Als Alternative möchten wir auf SdeWaC hinweisen, das über die WaCky-Initiative per E-Mail angefragt werden kann.

 

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

 

Webmaster des IMS

Zum Seitenanfang