Synchroner Wortverwendungsbezug (SURel) - Test Set und Annotationsdaten

Diese Datensammlung ergänzt den Artikel „SURel: A Gold Standard for Incorporating Meaning Shifts into Term Extraction“

Synchroner Wortverwendungsbezug (SURel) - Test Set und Annotationsdaten

Typ

ExperimentData

Autor

Anna Hätty, Dominik Schlechtweg, Sabine Schulte im Walde

Beschreibung

Diese Datensammlung ergänzt den unten zitierten Artikel und enthält folgende Dateien:

  • ein Test-Set für semantische Bedeutungsverschiebung mit 22 deutschen Lexemen, mit untesrchiedlichen Graden an Bedeutungsverschiebungen von der Allgemeinsprache hin zur domänenspezifischen Sprache des Kochens. Hierbei handelt es sich um eine tab-separierte CSV-Datei, in der jede Zeile folgende Form hat:

    Lexem Wortart Übersetzungen Mean-Relatedness-Score Freqeunz-GEN Frequenz-SPEC

Der 'Mean Relatedness Score' bezeichnet das annotationsbasierte Maß für Bedeutungsverschiebungen wie im Paper beschrieben. 'Frequenz GEN' und 'Frequenz SPEC' listen die Häufigkeiten der Zielwörter im allgemeinsprachlichen Korpus (GEN) und im domänenspezifischen Korpus (SPEC) auf. 'Übersetzungen' enthält englische Übersetzungen für mögliche Bedeutungen um die Bedeutungsverschiebung zu illustrieren. Beachten Sie, dass auch andere Bedeutungen exitieren können.

  • Die Annotationstabellen, wie sie die Annotatoren erhalten und ausgefüllt haben. Die Ergebnistabellen sind tab-separierte CSV-Dateien, in der jede Zeile folgende Form hat:

Satz1 Bewertung Kommentar Satz2

  • die Annotationsrichtlinien auf Deutsch und Englisch;
  • Visualisierungsplots der Daten.

Mehr Informationen finden Sie in unten zitierten Artikeln.

Verwandte Ressourcen:

  • WOCC: Korpora, aus denen die Verwendungspaare für die Annotation entnommen wurden.
  • DURel: parallel annotierter diachroner Datensatz.

Referenz

Anna Hätty, Dominik Schlechtweg, Sabine Schulte im Walde. 2019. SURel: A Gold Standard for Incorporating Meaning Shifts into Term Extraction. In Proceedings of the Eighth Joint Conference on Lexical and Computational Semantics (*SEM). Minneapolis, Minnesota, USA, 2019.

Dominik Schlechtweg, Sabine Schulte im Walde, Stefanie Eckmann. 2018. Diachronic Usage Relatedness (DURel): A Framework for the Annotation of Lexical Semantic Change. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT). New Orleans, Louisiana, USA, 2018.

Download

Die Ressourcen sind frei verfügbar für Lehre, Forschung sowie andere nicht-kommerzielle Zwecke. Für weitere Informationen schreiben Sie bitte eine E-Mail an die Autoren.

Sabine Schulte im Walde
Apl. Prof. Dr.

Sabine Schulte im Walde

Akademische Rätin (Associate/Adjunct Professor)

Zum Seitenanfang