Diachroner Wortverwendungsbezug (DURel)

Test- und Annotationsdaten für Bedeutungswandel im DTA-Korpus

Diachroner Wortverwendungsbezug (DURel)

Typ

Datensatz

Autor
Dominik Schlechtweg, Sabine Schulte im Walde, Stefanie Eckmann
Beschreibung

Diese Datensammlung enthält diachrone Bewertungen des semantischen Bezugs für deutsche Wortverwendungspaare. Eine Beschreibung des Datenformats, Code zur Verarbeitung der Daten und weitere Datensätze finden Sie auf der WUGseite.

  • testset: ein Testsatz für semantische Veränderungen mit 22 deutschen Lexemen, die in zwei Klassen unterteilt sind: Lexeme, für die die Autoren einen

    1. innovativen oder
    2. reduktiven Bedeutungswandel

    im Deutschen Textarchiv (DTA) für das 19. Jahrhundert feststellten. Bei einigen Lexemen ist der Bedeutungswandel bereits kurz vor 1800 zu beobachten, und einige Lexeme kommen mehr als einmal im Testsatz vor (siehe Papier). Die Spalten 'earlier' und 'later' enthalten den Mittelwert aller Bewertungen für das jeweilige Wort. Die Spalten 'delta_later' und 'compare' enthalten die Vorhersagen der in der Arbeit entwickelten annotationsbasierten Maße der semantischen Veränderung.

  • tables: die vollständige Annotationstabelle, so wie die Annotatoren sie erhalten haben, und eine Ergebnistabelle mit Zeilen in der gleichen Reihenfolge. Die Spalten 'date1' und 'date2' enthalten jeweils das Datum der ersten und zweiten Verwendung in der Zeile. Die Spalte 'mean' enthält den Mittelwert aller Bewertungen für das Verwendungspaar in dieser Zeile ohne 0-Bewertungen.
  • plots: Plots zur Datenvisualisierung.


Zusätzliche Daten stellen wir unter misc/ zur Verfügung. Weitere Informationen zu den bereitgestellten Daten entnehmen Sie bitte dem unten angegebenen Papier.

Referenz

Dominik Schlechtweg, Sabine Schulte im Walde, Stefanie Eckmann. 2018. Diachronic Usage Relatedness (DURel): A Framework for the Annotation of Lexical Semantic Change. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT). New Orleans, Louisiana USA.

 

Download

Die Ressourcen sind per Download verfügbar.

Verwandte Ressourcen
  • WOCC: Korpora, aus denen die Verwendungspaare für die Annotation entnommen wurden.
  • SURel: parallel annotierter diachroner Datensatz.
  • WUGs: Wortverwendungsgraphen.
  • DURel Tool: semantisches Annotations-Tool für Satzpaare eines Wortes.
  • Metaphorischer Wandel: ähnlich annotierter diachroner Datensatz zu metaphorischem Bedeutungswandel.

Dominik Schlechtweg

Dr.

Mitarbeiter

Dieses Bild zeigt Sabine Schulte im Walde

Sabine Schulte im Walde

Prof. Dr.

Akademische Rätin

Zum Seitenanfang