Simulation von Bedeutungswandel mit bedeutungsannotierten Daten

Simulierte Testkorpora mit Datensatz zur Evaluation von Bedeutungswandelerkennung.

Simulation von Bedeutungswandel mit bedeutungsannotierten Daten

Typ

ExperimentData

Autor

Dominik Schlechtweg, Sabine Schulte im Walde

Beschreibung

Diese Datensammlung ergänzt den unten zitierten Artikel und enthält:

  • ein lemmatisiertes englisches Textkorpuspaar (SEMCOR1, SEMCOR2) basierend SemCor, in dem Bedeutungswandel simuliert wurde (corpora/)
  • einen Testdatensatz für Bedeutungswandelerkennung, der 148 Lemmata mit Frequenzen >=50 in sowohl SEMCOR1 als auch SEMCOR2 enthält (testset/)

    Die Datei testset.tsventhält die folgenden Informationen:

    • lemma: Lemma
    • T1: Bedeutungsfrequenzverteilung in SEMCOR1
    • T2: Bedeutungsfrequenzverteilung in SEMCOR2
    • freq1: Lemma-Frequenz in SEMCOR1
    • freq2: Lemma-Frequenz in SEMCOR2
    • freq_error: relative Frequenzabweichung zwischen Frequenz annotierter Vorkommen und Gesamtfrequenz
    • poly: maximale Anzahl der Bedeutungen in SEMCOR1 und SEMCOR2
    • freq: normalisierte Frequenz-Differenz zwischen freq1 und freq2
    • graded: gradierter Bedeutungswandelwert für Lemma, G(Lemma)
    • binary: binärer Bedeutungswandelwert für Lemma, B(Lemma)

     

    Die Dateien poly.tsvund freq.tsventhalten die Werte für die Polysemie-und Frequenz-Baselines aus dem Artikel.

Referenz

Dominik Schlechtweg and Sabine Schulte im Walde. 2020. Simulating Lexical Semantic Change from Sense-Annotated Data. In Cuskley, C., Flaherty, M., Little, H., McCrohon, L., Ravignani, A. & Verhoef, T. (Eds.): The Evolution of Language: Proceedings of the 13th International Conference (EVOLANGXIII).

Download

Die Ressourcen sind frei verfügbar für Lehre, Forschung sowie andere nicht-kommerzielle Zwecke. Für weitere Informationen schreiben Sie bitte eine E-Mail an die Autoren.

Sabine Schulte im Walde
Apl. Prof. Dr.

Sabine Schulte im Walde

Akademische Rätin

Zum Seitenanfang