Clean Corpus of Historical American English (CCOHA)
- Typ
-
Korpus
- Autor
-
Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn, Sabine Schulte im Walde
- Beschreibung
-
Das Corpus of Historical American English (COHA) ist eines der am häufigsten verwendeten großen Korpora in diachronen Studien zum Englischen. Wir haben das Korpus bereinigt, um seine größten Einschränkungen wie inkonsistente Lemmata und fehlerhafte Token zu beseitigen, ohne qualitative sowie Verteilungseigenschaften zu beeinträchtigen.
Das resultierende CCOHA-Korpus enthält zudem eine größere Anzahl an Wort-Token, was eine bessere Datengrundlage für Untersuchungen zum Sprachwandel bietet und es für weitere Aufgaben nutzbar macht.
- Referenz
-
Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn and Sabine Schulte im Walde. 2020. CCOHA: Clean Corpus of Historical American English. In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC). European Language Resources Association (ELRA).
- Download
-
Um den Korpus herunterzuladen, senden Sie bitte Ihre Lizenz für das COHA Korpus an uns mit Mark Davies in CC. Wir können Ihnen dann den Korpus zur Verfügung stellen.
Es gibt zudem eine Stichprobe aus dem Korpus, welche in SemEval-2020 Task 1 benutzt wurde.
Außerdem stellen wir die im Papier erwähnte Target-Wortliste, die im Bereinigungsprozess benutzt wurde, zur Verfügung.

Dominik Schlechtweg
Dr.Nachwuchsgruppenleiter

Sabine Schulte im Walde
Prof. Dr.Akademische Rätin