DWUG DE Sense: Ein Datensatz historischer Bedeutungsannotationen im Deutschen
- Typ
-
Datensatz
- Autor
-
Dominik Schlechtweg
- Beschreibung
-
Diese Datensammlung enthält eine Teilmenge der DWUG DE Wortverwendungsdaten, die mit klassischen Wortbedeutungsdefinitionen annotiert sind (DWUG DE Sense, siehe
data/*/judgments_senses.csv
). Aus diesen Annotationen wurden aggregierte und bereinigte Wortbedeutungs-Labels abgeleitet (labels/*/labels_senses.csv
). Aus diesen Labels wurden zusätzliche binäre semantische Ähnlichkeits-Labels zwischen Wortverwendungen ('0' für unterschiedliche Bedeutungen, '1' für dieselbe Bedeutung,labels/*/labels_proximity.csv
) und Bedeutungswandel-Labels abgeleitet, die die Veränderungen der Bedeutungen zwischen den beiden Zeiträumen widerspiegeln, aus denen die Wortverwendungen entnommen wurden (stats/*/stats_groupings.csv
).Die Wortbedeutungs-Labels wurden aus der Bedeutungsannotation abgeleitet, indem Instanzen entfernt wurden, bei denen nicht mindestens 2/3 der Annotatoren übereinstimmen (
maj_2
/maj_3
). Beachten Sie, dass die binären Ähnlichkeits-Labels aus der Bedeutungsannotation abgeleitet wurden und nicht direkt von Menschen annotiert wurden (im Gegensatz zu anderen WUG-Datensätzen). Beachten Sie, dass folglich auch die Bedeutungswandelwerte EARLIER, LATER und COMPARE nicht direkt aus menschlichen Annotationen, sondern aus den abgeleiteten binären Ähnlichkeits-Labels berechnet wurden. Den Code zur Aggregation und Bereinigung der Daten, zur Ableitung der Ähnlichkeits-Labels und zur Ableitung der Bedeutungswandel-Labels finden Sie im WUG Repository.Weitere Informationen zu den bereitgestellten Daten entnehmen Sie bitte dem unten angegebenen Papier.
- Referenz
-
Dominik Schlechtweg. 2023. Human and Computational Measurement of Lexical Semantic Change. PhD thesis. University of Stuttgart.
- Download
-
Die Ressource ist per Download verfügbar.

Dominik Schlechtweg
Dr.Nachwuchsgruppenleiter