POS Tagger für mittelhochdeutsche Texte

Das Modell für den TreeTagger wurde auf der Mittelhochdeutschen Begriffsdatenbank trainiert

POS Tagger für mittelhochdeutsche Texte

Typ
Tool
Autor
Sarah Schulz, Nora Echelmeyer, Nils Reiter
Beschreibung

Das Modell für den TreeTagger wurde auf der Mittelhochdeutschen Begriffsdatenbank trainiert. Da die Datenbank keine Annotationen im Kontext enthält, wurden die PoS-Annotationen erzeugt, in dem die grammatischen Informationen zu Begriffen zu PoS tags aus dem Universal Dependency tagset abgebildet wurden. Diese Abbildung basiert auf einem Modell, das auf einer kleinen Datenmenge manuell annotiert wurde.

Das letztliche Trainingskorpus enthält etwa 10 Millionen tokens und repräsentiert unterschiedliche Gattungen, Epochen und Dialekte.

Eine Webanwendung des Taggers finden Sie hier.

Referenz

Nora Echelmeyer, Nils Reiter, Sarah Schulz (2017): “Ein PoS-Tagger für "das" Mittelhochdeutsche” in Dhd 2017 Konferenzabstracts, 2017, pp. 141-147.

Download
Dieses Bild zeigt Nils Reiter

Nils Reiter

Dr.

Ehemaliger Mitarbeiter

Zum Seitenanfang