Wind-Of-Change Korpora (WOCC)

Diese Sammlung enthält die Korpora (Lemma-Version) zu den Experimenten in Schlechtweg et. al (2019)

Wind-Of-Change Korpora (WOCC)

Typ

Corpus

Autor

Dominik Schlechtweg, Anna Hätty, Marco del Tredici, und Sabine Schulte im Walde

Beschreibung

Diese Sammlung enthält die Korpora (Lemma-Version) zu den Experimenten in Schlechtweg et. al (2019). Sie enthält ein diachrones und ein domänen-spezifisches Korpuspaar:

diachron:
- DTA18: Sätze aus Dokumenten des DTA (Deutsches Textarchiv), die zwischen 1750–1799 veröffentlicht wurden
- DTA19: Sätze aus Dokumenten des DTA, die zwischen 1850–1899 veröffentlicht wurden

domänenspezifisch:
- SDEWAC: eine Untermenge von Sätzen aus SdeWaC
- COOK: Sätze aus web-gecrawlten Kochtexten


Format
=====

Niedrig-frequente Worte und Satzzeichen wurden entfernt und die Wörter lemmatisiert. Jede Zeile entspricht einem Satz. Die Sätze wurden innerhalb jedes Korpus zufällig gemischt. Große Dateien wurden aufgeteilt und alle Dateien gezippt. (Siehe auch Beispielkorpus aus DTA18.)

Die Korpora sind die Basis für die DURel- und SURel-Datensätze. Zusammen mit diesen Datensätzen können die Korpora benutzt werden, um Modelle der automatischen Bedeutungswandel-erkennung bezüglich Bedeutungsverschiebungen zwischen Zeiträumen oder Domänen zu evaluieren.

Detailliertere Informationen zu den Korpora sind in Schlechtweg et. al (2019) zu finden.

Referenz

Dominik Schlechtweg, Anna Hätty, Marco del Tredici, and Sabine Schulte im Walde. 2019. A Wind of Change: Detecting and Evaluating Lexical Semantic Change across Times and Domains. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy. ACL.

Download

Die Korpora können hier heruntergeladen werden (große Dateien wurden aufgeteilt):

Sabine Schulte im Walde
Apl. Prof. Dr.

Sabine Schulte im Walde

Akademische Rätin (Associate/Adjunct Professor)

Zum Seitenanfang