Position innerhalb des Seitenbaumes

Institut für Maschinelle Sprachverarbeitung
Forschung
Ressourcen
Korpora
SdeWaC

SdeWaC

SdeWaC basiert auf dem deWaC-Webkorpus der WaCky-Initative. Für SdeWaC wurden Sätze aus deWaC ausgewählt, die von Webseiten der .de-Domain stammen und von einem Parser verarbeitet werden können

SdeWaC

Typ

Corpus

Beschreibung

SdeWaC basiert auf dem deWaC-Webkorpus der WaCky-Initative. Für SdeWaC wurden Sätze aus deWaC ausgewählt, die von Webseiten der .de-Domain stammen und von einem Parser verarbeitet werden können.

SdeWaC beschränkt sich auf den Satzkontext. Bei der Aufbereitung wurden die Sätze sortiert und Satz-Duplikate innerhalb desselben Domain-Namens entfernt. Des Weiteren wurden Heuristiken nach Quasthoff et al. 2006: "Corpus Portal for Search in Monolingual Corpora" in die Aufbereitung mit einbezogen.

Zur Feststellung der Verarbeitbarkeit wurde der Dependenzparser FSPar verwendet.

Download

SdeWaC-v3 wird über die WaCky-Initiative zur Verfügung gestellt (muss dort per E-Mail angefragt werden) und liegt in zwei Formaten vor:

ein Satz pro Zeile
ein Token pro Zeile mit Part-of-Speech- und Lemma-Annotationen (prozessiert mit Tokenizer und TreeTagger von H.Schmid)

In beiden Formaten sind als zusätzliche Metadaten der Domain-Name und die "error-rate" des Parsers encodiert.

Weitere Informationen
E-Mail schreiben
Allgemeine Kontaktadresse des IMS

E-Mail schreiben
Bei Problemen mit den Webseiten kontaktieren Sie den Webmaster direkt

SdeWaC

SdeWaC

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

Webmaster des IMS

Zielgruppe

Formalia

Services

Organisation

SdeWaC

SdeWaC

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

Webmaster des IMS

So erreichen Sie uns

Zielgruppe

Formalia

Services

Organisation