Deutsche Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection
- Typ
-
Korpus, Datensatz
- Autor
-
Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi
- Beschreibung
-
Diese Datensammlung enthält die Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:
- ein lemmatisiertes deutsches Textkorpuspaar (
corpus1/lemma/
,corpus2/lemma/
) - 48 Lemmata (Targets), die bezüglich ihres Bedeutungswandels zwischen den beiden Korpora annotiert wurden (
targets.txt
) - die annotierten binären Bedeutungswandelwerte der Targets für Subtask 1, und ihre annotierteren gradierten Bedeutungswandelwerte für Subtask 2 (
truth/
)
Korpus 1 (Lemma-Version)
- basiert auf: DTA
- Sprache: Deutsch
- Zeitperiode: 1800-1899
- Größe: ~70 Millionen Token
- Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
- Textkodierung: UTF-8
Korpus 2 (Lemma-Version)
- basiert auf: BZ and ND
- Sprache: Deutsch
- Zeitperiode: 1946-1990
- Größe: ~72 Millionen Token
- Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
- Textkodierung: UTF-8
- Hinweis: enthält viele OCR-Fehler
Neben der offiziellen Lemma-Version der Korpora für SemEval-2020 Task 1, stellen wir auch die unverarbeitete Token-Version zur Verfügung (
corpus1/token/
,corpus2/token/
). Sie enthält die unverarbeiteten Sätze in derselben Reihenfolge wie in der Lemma-Version. Weitere Informationen zu den Daten und zu SemEval-2020 Task 1 finden Sie in dem unten zitierten Papier.Die Erstellung der Daten wurde unterstützt durch das CRETA-Zentrum und das CLARIN-D-Projekt gefördert durch das Bundesministerium für Bildung und Forschung (BMBF).
- ein lemmatisiertes deutsches Textkorpuspaar (
- Referenz
-
Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.
Deutsches Textarchiv. 2017. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften.
Berliner Zeitung. 2018. Diachronic newspaper corpus published by Staatsbibliothek zu Berlin.
Neues Deutschland. 2018. Diachronic newspaper corpus published by Staatsbibliothek zu Berlin.
- Download
-
Die Ressourcen sind frei verfügbar.
Dominik Schlechtweg
Dr.Nachwuchsgruppenleiter
Sabine Schulte im Walde
Prof. Dr.Akademische Rätin