SdeWaC

SdeWaC basiert auf dem deWaC-Webkorpus der WaCky-Initative. Für SdeWaC wurden Sätze aus deWaC ausgewählt, die von Webseiten der .de-Domain stammen und von einem Parser verarbeitet werden können

SdeWaC

Typ
Corpus
Beschreibung

SdeWaC basiert auf dem deWaC-Webkorpus der WaCky-Initative. Für SdeWaC wurden Sätze aus deWaC ausgewählt, die von Webseiten der .de-Domain stammen und von einem Parser verarbeitet werden können.

SdeWaC beschränkt sich auf den Satzkontext. Bei der Aufbereitung wurden die Sätze sortiert und Satz-Duplikate innerhalb desselben Domain-Namens entfernt. Des Weiteren wurden Heuristiken nach Quasthoff et al. 2006: "Corpus Portal for Search in Monolingual Corpora" in die Aufbereitung mit einbezogen.

Zur Feststellung der Verarbeitbarkeit wurde der Dependenzparser FSPar verwendet.   

Download

SdeWaC-v3 wird über die WaCky-Initiative zur Verfügung gestellt (muss dort per E-Mail angefragt werden) und liegt in zwei Formaten vor:

  • ein Satz pro Zeile
  • ein Token pro Zeile mit Part-of-Speech- und Lemma-Annotationen (prozessiert mit Tokenizer und TreeTagger von H.Schmid)

In beiden Formaten sind als zusätzliche Metadaten der Domain-Name und die "error-rate" des Parsers encodiert.

 

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

 

Webmaster des IMS

Zum Seitenanfang