Huge German Corpus (HGC)
- Typ
-
Corpus
- Beschreibung
-
Das "Huge German Corpus" (HGC) ist eine Sammlung deutschsprachiger Texte (Zeitungsartikel und Rechtstexte), das für die Nutzung mit der IMS Corpus Workbench (CWB) aufbereitet ist. Es umfasst ca. 204 Millionen Token inklusive Satzzeichen (davon ca. 180 Millionen "richtige" Textwörter) in 12,2 Millionen Sätzen. Das Korpus wurde automatische mithilfe des TreeTaggers (Schmid 1994) in Sätze segmentiert und mit Lemma und Wortarteninformationen angereichert (STTS-Tagset, Schiller et al. 1999).
Die Rohdaten basieren teilweise auf der Kollektion des "European Corpus Initiative Multilingual Corpus I" (ECI/MCI).
- Referenz
-
Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart.
Helmut Schmid. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing, Manchester, UK.
- Download
-
Das Korpus steht leider nicht zur Verfügung. Als Alternative möchten wir auf SdeWaC hinweisen, das über die WaCky-Initiative per E-Mail angefragt werden kann.
Kontakt IMS
Pfaffenwaldring 5 b, 70569 Stuttgart
- Weitere Informationen
- E-Mail schreiben
- Allgemeine Kontaktadresse des IMS
Webmaster des IMS
- E-Mail schreiben
- Bei Problemen mit den Webseiten kontaktieren Sie den Webmaster direkt