Englische Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection
Typ
Korpus, Datensatz
Autor
Dominik Schlechtweg, Haim Dubossarsky, Simon Hengchen, Barbara McGillivray, Nina Tahmasebi
Beschreibung
Diese Datensammlung enthält die Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:
- ein lemmatisiertes englisches Textkorpuspaar (
corpus1/lemma/
,corpus2/lemma/
) - 37 Lemmata (Targets), die bezüglich ihres Bedeutungswandels zwischen den beiden Korpora annotiert wurden (
targets.txt
) - die annotierten binären Bedeutungswandelwerte der Targets für Subtask 1, und ihre annotierteren gradierten Bedeutungswandelwerte für Subtask 2 (
truth/
)
Korpus 1 (Lemma-Version)
- basiert auf: CCOHA / COHA
- Sprache: Englisch
- Zeitperiode: 1810-1860
- Größe: ~6 Millionen Token
- Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
- Textkodierung: UTF-8
- Hinweis: Zielwörter (targets) wurden mit ihrem allgemeinen POS-Tag konkateniert ("target_pos"); Sätze wurden an Ersetzungs-Token (10 x "@") getrennt und Ersetzungs-Token wurden entfernt
Korpus 2 (Lemma-Version)
- basiert auf: CCOHA / COHA
- Sprache: Englisch
- Zeitperiode: 1960-2010
- Größe: ~6 Millionen Token
- Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
- Textkodierung: UTF-8
- Hinweis: Zielwörter (targets) wurden mit ihrem allgemeinen POS-Tag konkateniert ("target_pos"); Sätze wurden an Ersetzungs-Token (10 x "@") getrennt und Ersetzungs-Token wurden entfernt
Neben der offiziellen Lemma-Version der Korpora für SemEval-2020 Task 1, stellen wir auch die unverarbeitete Token-Version zur Verfügung (corpus1/token/
, corpus2/token/
). Sie enthält die unverarbeiteten Sätze in derselben Reihenfolge wie in der Lemma-Version. Weitere Informationen zu den Daten und zu SemEval-2020 Task 1 finden Sie in dem unten zitierten Papier.
Die Erstellung der Daten wurde unterstützt durch das CRETA-Zentrum und das CLARIN-D-Projekt gefördert durch das Bundesministerium für Bildung und Forschung (BMBF).
Referenz
Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.
Download
Die Ressourcen sind frei verfügbar für Lehre, Forschung sowie andere nicht-kommerzielle Zwecke.

Dominik Schlechtweg
Ehemaliger Mitarbeiter
