Simulation von Bedeutungswandel mit bedeutungsannotierten Daten
Typ
ExperimentData
Autor
Dominik Schlechtweg, Sabine Schulte im Walde
Beschreibung
Diese Datensammlung ergänzt den unten zitierten Artikel und enthält:
- ein lemmatisiertes englisches Textkorpuspaar (SEMCOR1, SEMCOR2) basierend SemCor, in dem Bedeutungswandel simuliert wurde (
corpora/
) -
einen Testdatensatz für Bedeutungswandelerkennung, der 148 Lemmata mit Frequenzen >=50 in sowohl SEMCOR1 als auch SEMCOR2 enthält (
testset/
)Die Datei
testset.tsv
enthält die folgenden Informationen:- lemma: Lemma
- T1: Bedeutungsfrequenzverteilung in SEMCOR1
- T2: Bedeutungsfrequenzverteilung in SEMCOR2
- freq1: Lemma-Frequenz in SEMCOR1
- freq2: Lemma-Frequenz in SEMCOR2
- freq_error: relative Frequenzabweichung zwischen Frequenz annotierter Vorkommen und Gesamtfrequenz
- poly: maximale Anzahl der Bedeutungen in SEMCOR1 und SEMCOR2
- freq: normalisierte Frequenz-Differenz zwischen freq1 und freq2
- graded: gradierter Bedeutungswandelwert für Lemma, G(Lemma)
- binary: binärer Bedeutungswandelwert für Lemma, B(Lemma)
Die Dateien
poly.tsv
undfreq.tsv
enthalten die Werte für die Polysemie-und Frequenz-Baselines aus dem Artikel.
Referenz
Dominik Schlechtweg and Sabine Schulte im Walde. 2020. Simulating Lexical Semantic Change from Sense-Annotated Data. In Ravignani, A. and Barbieri, C. and Martins, M. and Flaherty, M. and Jadoul, Y. and Lattenkamp, E. and Little, H. and Mudd, K. and Verhoef, T. (Eds.): The Evolution of Language: Proceedings of the 13th International Conference (EvoLang13).
Download
Die Ressourcen sind frei verfügbar. Für weitere Informationen schreiben Sie bitte eine E-Mail an die Autoren.
Sabine Schulte im Walde
Prof. Dr.Akademische Rätin
Dominik Schlechtweg
Dr.Nachwuchsgruppenleiter