Englische Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Englische Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Englische Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Typ

Korpus, Datensatz

Autor

Dominik Schlechtweg, Haim Dubossarsky, Simon Hengchen, Barbara McGillivray, Nina Tahmasebi

Beschreibung

Diese Datensammlung enthält die Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:

  • ein lemmatisiertes englisches Textkorpuspaar (corpus1/lemma/, corpus2/lemma/)
  • 37 Lemmata (Targets), die bezüglich ihres Bedeutungswandels zwischen den beiden Korpora annotiert wurden (targets.txt)
  • die annotierten binären Bedeutungswandelwerte der Targets für Subtask 1, und ihre annotierteren gradierten Bedeutungswandelwerte für Subtask 2 (truth/)

Korpus 1 (Lemma-Version)

  • basiert auf: CCOHA / COHA
  • Sprache: Englisch
  • Zeitperiode: 1810-1860
  • Größe: ~6 Millionen Token
  • Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
  • Textkodierung: UTF-8
  • Hinweis: Zielwörter (targets) wurden mit ihrem allgemeinen POS-Tag konkateniert ("target_pos"); Sätze wurden an Ersetzungs-Token (10 x "@") getrennt und Ersetzungs-Token wurden entfernt

Korpus 2 (Lemma-Version)

  • basiert auf: CCOHA / COHA
  • Sprache: Englisch
  • Zeitperiode: 1960-2010
  • Größe: ~6 Millionen Token
  • Format: lemmatisiert, Sätzlänge > 9 (vor Satzzeichenentfernung), keine Satzzeichen, Sätze wurden zufällig gemischt
  • Textkodierung: UTF-8
  • Hinweis: Zielwörter (targets) wurden mit ihrem allgemeinen POS-Tag konkateniert ("target_pos"); Sätze wurden an Ersetzungs-Token (10 x "@") getrennt und Ersetzungs-Token wurden entfernt

Besides the official lemma version of the corpora for SemEval-2020 Task 1 we also provide the raw token version (corpus1/token/, corpus2/token/). It contains the raw sentences in the same order as in the lemma version. Find more information on the data and SemEval-2020 Task 1 in the paper referenced below.

Die Erstellung der Daten wurde unterstützt durch das CRETA-Zentrum und das CLARIN-D-Projekt gefördert durch das Bundesministerium für Bildung und Forschung (BMBF).

Referenz

Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.

Sabine Schulte im Walde
Apl. Prof. Dr.

Sabine Schulte im Walde

Akademische Rätin

Zum Seitenanfang