Clean Corpus of Historical American English (CCOHA)

Bereinigte Version des Corpus of Historical American English (COHA)

Clean Corpus of Historical American English (CCOHA)

Typ

Korpus

Autor

Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn, Sabine Schulte im Walde

Beschreibung

Das Corpus of Historical American English (COHA) ist eines der am häufigsten verwendeten großen Korpora in diachronen Studien zum Englischen. Wir haben das Korpus bereinigt, um seine größten Einschränkungen wie inkonsistente Lemmata und fehlerhafte Token zu beseitigen, ohne qualitative sowie Verteilungseigenschaften zu beeinträchtigen.

Das resultierende CCOHA-Korpus enthält zudem eine größere Anzahl an Wort-Token, was eine bessere Datengrundlage für Untersuchungen zum Sprachwandel bietet und es für weitere Aufgaben nutzbar macht.

Referenz

Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn and Sabine Schulte im Walde. 2020. CCOHA: Clean Corpus of Historical American English. In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC). European Language Resources Association (ELRA).

Download

Um den Korpus herunterzuladen, senden Sie bitte Ihre Lizenz für das COHA Korpus an uns mit Mark Davies in CC. Wir können Ihnen dann den Korpus zur Verfügung stellen.

Es gibt zudem eine Stichprobe aus dem Korpus, welche in SemEval-2020 Task 1 benutzt wurde.

Außerdem stellen wir die im Papier erwähnte Target-Wortliste, die im Bereinigungsprozess benutzt wurde, zur Verfügung.

Dominik Schlechtweg

Dr.

Mitarbeiter

Dieses Bild zeigt Sabine Schulte im Walde

Sabine Schulte im Walde

Prof. Dr.

Akademische Rätin

Zum Seitenanfang