Clean Corpus of Historical American English (CCOHA)

Bereinigte Version des Corpus of Historical American English (COHA)

Clean Corpus of Historical American English (CCOHA)

Typ

Korpus

Autor

Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn, Sabine Schulte im Walde

Beschreibung

Das Corpus of Historical American English (COHA) ist eines der am häufigsten verwendeten großen Korpora in diachronen Studien zum Englischen. Wir haben das Korpus bereinigt, um seine größten Einschränkungen wie inkonsistente Lemmata und fehlerhafte Token zu beseitigen, ohne qualitative sowie Verteilungseigenschaften zu beeinträchtigen.

Das resultierende CCOHA-Korpus enthält eine größere Anzahl an Wort-Token, was eine bessere Datengrundlage für Untersuchungen zum Sprachwandel bietet und es für weitere Aufgaben nutzbar macht.

Referenz

Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn and Sabine Schulte im Walde. 2020. CCOHA: Clean Corpus of Historical American English. In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC'20). European Language Resources Association (ELRA).

Download

Das CCOHA-Korpus kann über die COHA-Website heruntergeladen werden.

Mehr:

  • Die im Papier erwähnte Target-Wortliste, die im Bereinigungsprozess benutzt wurde.
Sabine Schulte im Walde
Apl. Prof. Dr.

Sabine Schulte im Walde

Akademische Rätin

Zum Seitenanfang