Institut

Studium

Forschung


 

Diachroner Wortverwendungsbezug (DURel) - Test Set und Annotationsdaten

Typ ExperimentData
Titel Diachroner Wortverwendungsbezug (DURel) - Test Set und Annotationsdaten
Autor Dominik Schlechtweg, Sabine Schulte im Walde, Stefanie Eckmann

Beschreibung

Diese Datensammlung ergänzt den unten zitierten Artikel und enthält folgende Dateien:

  • ein Test set für semantischen Wandel mit 22 deutschen Lexemen, die in zwei Klassen fallen: (i) Lexeme, für die die Autoren innovativen oder (ii) reduktiven Bedeutungswandel im Deutschen Textarchiv (DTA) für das 19. Jahrhundert festgestellt haben. (Für einige Lexeme ist der Wandel schon etwas vor 1800 zu beobachten und manche Lexeme kommen mehr als einmal im Test set vor (siehe Artikel).) Hierbei handelt es sich um eine tab-separierte CSV-Datei, in der jede Zeile folgende Form hat:

Lexem Wortart Klasse Beschreibung earlier later delta_later compare Frequenz_1750-1800/1850-1900 Quelle

Die Spalten 'earlier' und 'later' enthalten den Mittelwert der Bewertungen für das jeweilige Wort. Die Spalten 'delta_later' und 'compare' enthalten die Vorhersagen der annotationsbasierten Maße für semantischen Wandel, die im Artikel entwickelt werden;

  • Die Annotationstabelle, wie sie die Annotatoren erhalten haben, und eine Ergebnistabelle mit Zeilen in derselben Reihenfolge. Die Ergebnistabelle ist eine tab-separierte CSV-Datei, in der jede Zeile folgende Form hat:

Lexem Datum1 Datum2 Gruppe Annotator1 Annotator2 Annotator3 Annotator4 Annotator5 Mittelwert Kommentar1 Kommentar2 Kommentar3 Kommentar4 Kommentar5

Die Spalten 'Datum1' und 'Datum2' enthalten das Datum der ersten bzw. der zweiten Wortverwendung in der Zeile. 'Mittelwert' enthält den Mittelwert aller Bewertungen für das Verwendungspaar dieser Zeile ohne 0-Bewertungen;

  • die Annotationsrichtlinien auf Deutsch und Englisch;
  • Visualisierungsplots der Daten.



Mehr Informationen finden Sie in unten zitiertem Artikel.


Referenz

Dominik Schlechtweg, Sabine Schulte im Walde, Stefanie Eckmann. 2018. Diachronic Usage Relatedness (DURel): A Framework for the Annotation of Lexical Semantic Change. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT). New Orleans, Louisiana USA 2018.


Download

Die Ressourcen sind frei verfügbar für Lehre, Forschung sowie andere nicht-kommerzielle Zwecke. Zum Download klicken Sie bitte hier. Für weitere Informationen schreiben Sie bitte eine E-Mail an die Autoren.