Position innerhalb des Seitenbaumes

Institut für Maschinelle Sprachverarbeitung
Forschung
Ressourcen
Korpora
Huge German Corpus (HGC)

Huge German Corpus (HGC)

Das "Huge German Corpus" (HGC) ist eine Sammlung deutschsprachiger Texte (Zeitungsartikel und Rechtstexte), das für die Nutzung mit der IMS Corpus Workbench (CWB) aufbereitet ist

Huge German Corpus (HGC)

Typ: Corpus
Beschreibung: Das "Huge German Corpus" (HGC) ist eine Sammlung deutschsprachiger Texte (Zeitungsartikel und Rechtstexte), das für die Nutzung mit der IMS Corpus Workbench (CWB) aufbereitet ist. Es umfasst ca. 204 Millionen Token inklusive Satzzeichen (davon ca. 180 Millionen "richtige" Textwörter) in 12,2 Millionen Sätzen. Das Korpus wurde automatische mithilfe des TreeTaggers (Schmid 1994) in Sätze segmentiert und mit Lemma und Wortarteninformationen angereichert (STTS-Tagset, Schiller et al. 1999).

Die Rohdaten basieren teilweise auf der Kollektion des "European Corpus Initiative Multilingual Corpus I" (ECI/MCI).
Referenz: Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart.

Helmut Schmid. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing, Manchester, UK.
Download: Das Korpus steht leider nicht zur Verfügung. Als Alternative möchten wir auf SdeWaC hinweisen, das über die WaCky-Initiative per E-Mail angefragt werden kann.

Weitere Informationen
E-Mail schreiben
Allgemeine Kontaktadresse des IMS

E-Mail schreiben
Bei Problemen mit den Webseiten kontaktieren Sie den Webmaster direkt

Huge German Corpus (HGC)

Huge German Corpus (HGC)

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

Webmaster des IMS

Zielgruppe

Formalia

Services

Organisation

Huge German Corpus (HGC)

Huge German Corpus (HGC)

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

Webmaster des IMS

So erreichen Sie uns

Zielgruppe

Formalia

Services

Organisation