Deutsche Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Deutsche Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Deutsche Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Typ

Korpus, Datensatz

Autor

Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi

Beschreibung

Diese Datensammlung enthält die Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:

  • ein lemmatisiertes deutsches Textkorpuspaar (corpus1/lemma/, corpus2/lemma/)
  • 48 Lemmata (Targets), die bezüglich ihres Bedeutungswandels zwischen den beiden Korpora annotiert wurden (targets.txt)
  • die annotierten binären Bedeutungswandelwerte der Targets für Subtask 1, und ihre annotierteren gradierten Bedeutungswandelwerte für Subtask 2 (truth/)

Korpus 1 (Lemma-Version)

  • basiert auf: DTA
  • Sprache: Deutsch
  • Zeitperiode: 1800-1899
  • Größe: ~70 Millionen Token
  • Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
  • Textkodierung: UTF-8

Korpus 2 (Lemma-Version)

  • basiert auf: BZ and ND
  • Sprache: Deutsch
  • Zeitperiode: 1946-1990
  • Größe: ~72 Millionen Token
  • Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
  • Textkodierung: UTF-8
  • Hinweis: enthält viele OCR-Fehler

Neben der offiziellen Lemma-Version der Korpora für SemEval-2020 Task 1, stellen wir auch die unverarbeitete Token-Version zur Verfügung (corpus1/token/, corpus2/token/). Sie enthält die unverarbeiteten Sätze in derselben Reihenfolge wie in der Lemma-Version. Weitere Informationen zu den Daten und zu SemEval-2020 Task 1 finden Sie in dem unten zitierten Papier.

Die Erstellung der Daten wurde unterstützt durch das CRETA-Zentrum und das CLARIN-D-Projekt gefördert durch das Bundesministerium für Bildung und Forschung (BMBF).

Referenz

Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.

Deutsches Textarchiv. 2017. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften.

Berliner Zeitung. 2018. Diachronic newspaper corpus published by Staatsbibliothek zu Berlin.

Neues Deutschland. 2018. Diachronic newspaper corpus published by Staatsbibliothek zu Berlin.

Download

Die Ressourcen sind frei verfügbar.

Dominik Schlechtweg

Dr.

Mitarbeiter

Dieses Bild zeigt Sabine Schulte im Walde

Sabine Schulte im Walde

Prof. Dr.

Akademische Rätin

Zum Seitenanfang