Deutsche Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection
Typ
Korpus, Datensatz
Autor
Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi
Beschreibung
Diese Datensammlung enthält die Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:
- ein lemmatisiertes deutsches Textkorpuspaar (
corpus1/lemma/
,corpus2/lemma/
) - 48 Lemmata (Targets), die bezüglich ihres Bedeutungswandels zwischen den beiden Korpora annotiert wurden (
targets.txt
) - die annotierten binären Bedeutungswandelwerte der Targets für Subtask 1, und ihre annotierteren gradierten Bedeutungswandelwerte für Subtask 2 (
truth/
)
Korpus 1 (Lemma-Version)
- basiert auf: DTA
- Sprache: Deutsch
- Zeitperiode: 1800-1899
- Größe: ~70 Millionen Token
- Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
- Textkodierung: UTF-8
Korpus 2 (Lemma-Version)
- basiert auf: BZ and ND
- Sprache: Deutsch
- Zeitperiode: 1946-1990
- Größe: ~72 Millionen Token
- Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
- Textkodierung: UTF-8
- Hinweis: enthält viele OCR-Fehler
Neben der offiziellen Lemma-Version der Korpora für SemEval-2020 Task 1, stellen wir auch die unverarbeitete Token-Version zur Verfügung (corpus1/token/
, corpus2/token/
). Sie enthält die unverarbeiteten Sätze in derselben Reihenfolge wie in der Lemma-Version. Weitere Informationen zu den Daten und zu SemEval-2020 Task 1 finden Sie in dem unten zitierten Papier.
Die Erstellung der Daten wurde unterstützt durch das CRETA-Zentrum und das CLARIN-D-Projekt gefördert durch das Bundesministerium für Bildung und Forschung (BMBF).
Referenz
Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.
Download
Die Ressourcen sind frei verfügbar für Lehre, Forschung sowie andere nicht-kommerzielle Zwecke.

Dominik Schlechtweg
Ehemaliger Mitarbeiter
