Diachroner Wortverwendungsbezug (DURel)
- Typ
-
Datensatz
- Autor
-
Dominik Schlechtweg, Sabine Schulte im Walde, Stefanie Eckmann
- Beschreibung
-
Diese Datensammlung enthält diachrone Bewertungen des semantischen Bezugs für deutsche Wortverwendungspaare. Eine Beschreibung des Datenformats, Code zur Verarbeitung der Daten und weitere Datensätze finden Sie auf der WUGseite.
-
testset: ein Testsatz für semantische Veränderungen mit 22 deutschen Lexemen, die in zwei Klassen unterteilt sind: Lexeme, für die die Autoren einen
- innovativen oder
- reduktiven Bedeutungswandel
im Deutschen Textarchiv (DTA) für das 19. Jahrhundert feststellten. Bei einigen Lexemen ist der Bedeutungswandel bereits kurz vor 1800 zu beobachten, und einige Lexeme kommen mehr als einmal im Testsatz vor (siehe Papier). Die Spalten 'earlier' und 'later' enthalten den Mittelwert aller Bewertungen für das jeweilige Wort. Die Spalten 'delta_later' und 'compare' enthalten die Vorhersagen der in der Arbeit entwickelten annotationsbasierten Maße der semantischen Veränderung.
- tables: die vollständige Annotationstabelle, so wie die Annotatoren sie erhalten haben, und eine Ergebnistabelle mit Zeilen in der gleichen Reihenfolge. Die Spalten 'date1' und 'date2' enthalten jeweils das Datum der ersten und zweiten Verwendung in der Zeile. Die Spalte 'mean' enthält den Mittelwert aller Bewertungen für das Verwendungspaar in dieser Zeile ohne 0-Bewertungen.
- plots: Plots zur Datenvisualisierung.
Zusätzliche Daten stellen wir unter
misc/
zur Verfügung. Weitere Informationen zu den bereitgestellten Daten entnehmen Sie bitte dem unten angegebenen Papier. -
- Referenz
-
Dominik Schlechtweg, Sabine Schulte im Walde, Stefanie Eckmann. 2018. Diachronic Usage Relatedness (DURel): A Framework for the Annotation of Lexical Semantic Change. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT). New Orleans, Louisiana USA.
- Download
-
Die Ressourcen sind per Download verfügbar.
- Verwandte Ressourcen
-
- WOCC: Korpora, aus denen die Verwendungspaare für die Annotation entnommen wurden.
- SURel: parallel annotierter diachroner Datensatz.
- WUGs: Wortverwendungsgraphen.
- DURel Tool: semantisches Annotations-Tool für Satzpaare eines Wortes.
- Metaphorischer Wandel: ähnlich annotierter diachroner Datensatz zu metaphorischem Bedeutungswandel.
Dominik Schlechtweg
Dr.Nachwuchsgruppenleiter
Sabine Schulte im Walde
Prof. Dr.Akademische Rätin