Wind-Of-Change Korpora (WOCC)
- Typ
-
Corpus
- Autor
-
Dominik Schlechtweg, Anna Hätty, Marco del Tredici, und Sabine Schulte im Walde
- Beschreibung
-
Diese Sammlung enthält die Korpora (Lemma-Version) zu den Experimenten in Schlechtweg et. al (2019). Sie enthält ein diachrones und ein domänen-spezifisches Korpuspaar:
diachron:
- DTA18: Sätze aus Dokumenten des DTA (Deutsches Textarchiv), die zwischen 1750–1799 veröffentlicht wurden
- DTA19: Sätze aus Dokumenten des DTA, die zwischen 1850–1899 veröffentlicht wurden
domänenspezifisch:
- SDEWAC: eine Untermenge von Sätzen aus SdeWaC
- COOK: Sätze aus web-gecrawlten Kochtexten
Format
=====Niedrig-frequente Worte und Satzzeichen wurden entfernt und die Wörter lemmatisiert. Jede Zeile entspricht einem Satz. Die Sätze wurden innerhalb jedes Korpus zufällig gemischt. Große Dateien wurden aufgeteilt und alle Dateien gezippt. (Siehe auch Beispielkorpus aus DTA18.)
Die Korpora sind die Basis für die DURel- und SURel-Datensätze. Zusammen mit diesen Datensätzen können die Korpora benutzt werden, um Modelle der automatischen Bedeutungswandel-erkennung bezüglich Bedeutungsverschiebungen zwischen Zeiträumen oder Domänen zu evaluieren.
Detailliertere Informationen zu den Korpora sind in Schlechtweg et. al (2019) zu finden.
- Referenz
-
Dominik Schlechtweg, Anna Hätty, Marco del Tredici, and Sabine Schulte im Walde. 2019. A Wind of Change: Detecting and Evaluating Lexical Semantic Change across Times and Domains. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy. ACL.
- Download
- Verwandte Ressourcen
-
- DURel: Annotationsdaten für das diachrone Korpuspaar
- SURel: Annotationsdaten für das domänenspezifische Korpuspaar
- Metaphorischer Wandel: Annotationsdaten für das diachrone Korpuspaar
Dominik Schlechtweg
Dr.Nachwuchsgruppenleiter
Sabine Schulte im Walde
Prof. Dr.Akademische Rätin