SdeWaC
- Typ
-
Corpus
- Beschreibung
-
SdeWaC basiert auf dem deWaC-Webkorpus der WaCky-Initative. Für SdeWaC wurden Sätze aus deWaC ausgewählt, die von Webseiten der .de-Domain stammen und von einem Parser verarbeitet werden können.
SdeWaC beschränkt sich auf den Satzkontext. Bei der Aufbereitung wurden die Sätze sortiert und Satz-Duplikate innerhalb desselben Domain-Namens entfernt. Des Weiteren wurden Heuristiken nach Quasthoff et al. 2006: "Corpus Portal for Search in Monolingual Corpora" in die Aufbereitung mit einbezogen.
Zur Feststellung der Verarbeitbarkeit wurde der Dependenzparser FSPar verwendet.
- Download
-
SdeWaC-v3 wird über die WaCky-Initiative zur Verfügung gestellt (muss dort per E-Mail angefragt werden) und liegt in zwei Formaten vor:
- ein Satz pro Zeile
- ein Token pro Zeile mit Part-of-Speech- und Lemma-Annotationen (prozessiert mit Tokenizer und TreeTagger von H.Schmid)
In beiden Formaten sind als zusätzliche Metadaten der Domain-Name und die "error-rate" des Parsers encodiert.
Kontakt IMS
Pfaffenwaldring 5 b, 70569 Stuttgart
- Weitere Informationen
- E-Mail schreiben
- Allgemeine Kontaktadresse des IMS
Webmaster des IMS
- E-Mail schreiben
- Bei Problemen mit den Webseiten kontaktieren Sie den Webmaster direkt