Englische Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection
- Typ
-
Korpus, Datensatz
- Autor
-
Dominik Schlechtweg, Haim Dubossarsky, Simon Hengchen, Barbara McGillivray, Nina Tahmasebi
- Beschreibung
-
Diese Datensammlung enthält die Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:
- ein lemmatisiertes englisches Textkorpuspaar (
corpus1/lemma/
,corpus2/lemma/
) - 37 Lemmata (Targets), die bezüglich ihres Bedeutungswandels zwischen den beiden Korpora annotiert wurden (
targets.txt
) - die annotierten binären Bedeutungswandelwerte der Targets für Subtask 1, und ihre annotierteren gradierten Bedeutungswandelwerte für Subtask 2 (
truth/
)
Korpus 1 (Lemma-Version)
- basiert auf: CCOHA / COHA
- Sprache: Englisch
- Zeitperiode: 1810-1860
- Größe: ~6 Millionen Token
- Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
- Textkodierung: UTF-8
- Hinweis: Zielwörter (targets) wurden mit ihrem allgemeinen POS-Tag konkateniert ("target_pos"); Sätze wurden an Ersetzungs-Token (10 x "@") getrennt und Ersetzungs-Token wurden entfernt
Korpus 2 (Lemma-Version)
- basiert auf: CCOHA / COHA
- Sprache: Englisch
- Zeitperiode: 1960-2010
- Größe: ~6 Millionen Token
- Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
- Textkodierung: UTF-8
- Hinweis: Zielwörter (targets) wurden mit ihrem allgemeinen POS-Tag konkateniert ("target_pos"); Sätze wurden an Ersetzungs-Token (10 x "@") getrennt und Ersetzungs-Token wurden entfernt
Neben der offiziellen Lemma-Version der Korpora für SemEval-2020 Task 1, stellen wir auch die unverarbeitete Token-Version zur Verfügung (
corpus1/token/
,corpus2/token/
). Sie enthält die unverarbeiteten Sätze in derselben Reihenfolge wie in der Lemma-Version. Weitere Informationen zu den Daten und zu SemEval-2020 Task 1 finden Sie in dem unten zitierten Papier.Die Erstellung der Daten wurde unterstützt durch das CRETA-Zentrum und das CLARIN-D-Projekt gefördert durch das Bundesministerium für Bildung und Forschung (BMBF).
- ein lemmatisiertes englisches Textkorpuspaar (
- Referenz
-
Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.
Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn, and Sabine Schulte im Walde. 2020. CCOHA: Clean Corpus of Historical American English. In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC’20). European Language Resources Association (ELRA).
Mark Davies. 2012. Expanding Horizons in Historical Linguistics with the 400-Million Word Corpus of Historical American English. Corpora, 7(2):121–157.
- Download
-
Die Ressourcen sind frei verfügbar.
Dominik Schlechtweg
Dr.Nachwuchsgruppenleiter
Sabine Schulte im Walde
Prof. Dr.Akademische Rätin