Englische Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Englische Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Englische Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Typ

Korpus, Datensatz

Autor

Dominik Schlechtweg, Haim Dubossarsky, Simon Hengchen, Barbara McGillivray, Nina Tahmasebi

Beschreibung

Diese Datensammlung enthält die Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:

  • ein lemmatisiertes englisches Textkorpuspaar (corpus1/lemma/, corpus2/lemma/)
  • 37 Lemmata (Targets), die bezüglich ihres Bedeutungswandels zwischen den beiden Korpora annotiert wurden (targets.txt)
  • die annotierten binären Bedeutungswandelwerte der Targets für Subtask 1, und ihre annotierteren gradierten Bedeutungswandelwerte für Subtask 2 (truth/)

Korpus 1 (Lemma-Version)

  • basiert auf: CCOHA / COHA
  • Sprache: Englisch
  • Zeitperiode: 1810-1860
  • Größe: ~6 Millionen Token
  • Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
  • Textkodierung: UTF-8
  • Hinweis: Zielwörter (targets) wurden mit ihrem allgemeinen POS-Tag konkateniert ("target_pos"); Sätze wurden an Ersetzungs-Token (10 x "@") getrennt und Ersetzungs-Token wurden entfernt

Korpus 2 (Lemma-Version)

  • basiert auf: CCOHA / COHA
  • Sprache: Englisch
  • Zeitperiode: 1960-2010
  • Größe: ~6 Millionen Token
  • Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
  • Textkodierung: UTF-8
  • Hinweis: Zielwörter (targets) wurden mit ihrem allgemeinen POS-Tag konkateniert ("target_pos"); Sätze wurden an Ersetzungs-Token (10 x "@") getrennt und Ersetzungs-Token wurden entfernt

Neben der offiziellen Lemma-Version der Korpora für SemEval-2020 Task 1, stellen wir auch die unverarbeitete Token-Version zur Verfügung (corpus1/token/, corpus2/token/). Sie enthält die unverarbeiteten Sätze in derselben Reihenfolge wie in der Lemma-Version. Weitere Informationen zu den Daten und zu SemEval-2020 Task 1 finden Sie in dem unten zitierten Papier.

Die Erstellung der Daten wurde unterstützt durch das CRETA-Zentrum und das CLARIN-D-Projekt gefördert durch das Bundesministerium für Bildung und Forschung (BMBF).

Referenz

Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.

Dieses Bild zeigt  Sabine Schulte im Walde
Apl. Prof. Dr.

Sabine Schulte im Walde

Akademische Rätin

Zum Seitenanfang