Institut

Studium

Forschung


 

Das STTS-Tagset für Wortartentagging

Stand und Perspektiven


Veranstaltungsdatum: 24. September 2012 10:00 Uhr bis 11:00 Uhr

Das Stuttgart-Tübingen TagSet (STTS) wurde in den 1990er Jahren von den Universitäten Stuttgart und Tübingen gemeinsam entwickelt (vgl. Schiller et al. 1999) und ist seither mehr oder weniger zu einer de facto-Norm für die morphosyntaktische Annotation deutscher Texte geworden. Gleichzeitig existieren aber verschiedene, zum Teil nicht vollständig (öffentlich) dokumentierte Varianten("Dialekte") von STTS, und es gibt viele Vorschläge zur Verbesserung und Ergänzung des Tagsets (vgl. http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/GermanTagsets.html); einige davon wurden in einem Workshop in Tübingen im Jahr 2004 gesammelt und diskutiert.

Die CLARIN-D-Zentren SfS Tübingen und IMS Stuttgart luden in Kooperation mit dem IwiST, Universität Hildesheim zum ersten von ggf. zwei oder drei Workshops ein, an deren Ende STTS und seine "Dialekte" nachhaltig dokumentiert und verfügbar gemacht sein sollen und ggfs. eine überarbeitete Version von STTS bereitgestellt werden kann.

Inhaltliche Ziele des ersten Workshops waren,

  • eine Bestandsaufnahme der aktuell in Implementierungen genutzten STTS-Versionen und -"Dialekte" zu erstellen (z.B. aus Textressourcen von SfS Tübingen, BBAW, usw., bzw. aus Werkzeugen wie dem TreeTagger);
  • Modifikations- und Ergänzungsvorschläge zu STTS zusammenzutragen;
  • den Ergänzungs- und Modifikationsbedarf von Vorhaben zum Tagging von Nicht-Standard-Texten zu ermitteln und als weiteren Input zu einer Revision von STTS zu berücksichtigen. Einige Beispiele für solche Nicht- Standard-Texte sind:
    • Texte aus Fachsprachen, z.B. juristische Fachtexte, Wartungsanleitungen;
    • Transkribierte gesprochene Sprache;
    • Texte aus user-generated content, z.B. Chats, Blogs, Twitter- Meldungen, SMS;
    • Dialekte und andere Nicht-Standard-Varietäten, z.B. Kiezdeutsch, österreichische Mundarten;
    • Texte aus früheren Sprachstufen;
    • Lernertexte.
 

Durch den Workshop wollen wir eine Gruppe von Interessierten zusammenbringen, die die Bestandsaufnahme und die Bedarfsanalyse als Bausteine eines wissenschaftlichen Artikels zusammentragen (Ziel: Publikation in einer deutschsprachigen Zeitschrift). Das Treffen soll außerdem dazu dienen, eine Infrastruktur (Wiki) für das verteilte virtuelle Projekt zur Dokumentation und Überarbeitung von STTS zu planen sowie Zuständigkeiten und Termine für die gemeinsame Arbeit festzulegen.

Potentielle Teilnehmende des Workshops sind u.a.:

  • die Entwickler von STTS und anderen Wortartentagsets;
  • Entwickler von Werkzeugen zum POS-Tagging und ggf. von Morphologiesystemen;
  • Entwickler, Bereitsteller und Nutzer von großen Korpora bzw. von Korpora der Nicht-Standard-Varietäten;
  • alle an der Weiterentwicklung von STTS Interessierten.

 Programm (Link in Arbeit)

Der Workshop wurde organisiert von den CLARIN-D-Zentren SfS Tübingen und IMS Stuttgart in Kooperation mit dem IwiST Hildesheim.

Organisatoren: Heike Zinsmeister (Stuttgart), Kathrin Beck (Tübingen), Ulrich Heid (Hildesheim)


Verweise: