Institut

Studium

Forschung


 

SdeWaC

Typ Corpus
Titel SdeWaC

Beschreibung

SdeWaC basiert auf dem deWaC-Webkorpus der WaCky-Initative. Für SdeWaC wurden Sätze aus deWaC ausgewählt, die von Webseiten der .de-Domain stammen und von einem Parser verarbeitet werden können.

SdeWaC beschränkt sich auf den Satzkontext. Bei der Aufbereitung wurden die Sätze sortiert und Satz-Duplikate innerhalb desselben Domain-Namens entfernt. Des Weiteren wurden Heuristiken nach Quasthoff et al. 2006: "Corpus Portal for Search in Monolingual Corpora" in die Aufbereitung mit einbezogen.

Zur Feststellung der Verarbeitbarkeit wurde der Dependenzparser FSPar verwendet.   


Download

SdeWaC-v3 wird über die WaCky-Initiative zur Verfügung gestellt und liegt in zwei Formaten vor:

  • ein Satz pro Zeile
  • ein Token pro Zeile mit Part-of-Speech- und Lemma-Annotationen (prozessiert mit Tokenizer und TreeTagger von H.Schmid)

In beiden Formaten sind als zusätzliche Metadaten der Domain-Name und die "error-rate" des Parsers encodiert.