Institut

Studium

Forschung


zur Startseite

 

Trigger für die automatische Spracherkennung -
auf der Suche nach stabilen Stellen in dialektaler Sprache
Marcus L. Fach, 
Institut für Maschinelle Sprachverarbeitung (IMS), Universität Stuttgart 
Kommerzielle Spracherkennungssysteme realisieren in aller Regel sprecherabhängige Systeme. Die wenigen sprecherunabhängigen Systeme sind noch auf kleines Vokabular beschränkt. Diese Systeme sind gegen schwache dialektale Varianten relativ robust ([Ber96], [Ber97], [Moo91], [Kem96]). Sind aber starke Dialektvariationen zu erwarten, die sich in Änderungen der phonologisch/phonetischen, morphologischen und syntaktischen Ebene manifestieren, müssen bei der automatischen Erkennung neue Wege beschritten werden. 

In der vorliegenden Studie werden verschiedene Dialekte miteinander verglichen, mit dem Ziel, gemeinsame sprachliche Elemente (im weiteren ,Trigger" genannt) zu identifizieren. Beim Einsatz solcher Trigger in der automatischen Spracherkennung wird eine größere Robustheit gegenüber Abweichungen (hier: Dialekte) der Standardparameter erwartet. Die Suche nach Triggern wird durch die Tatsache erleichert, dass zwischen Alignment (von Sprachsignal und entsprechender Verschriftung) und Spracherkennung auf Grund der gleichen Basistechnologie ein enger Zusammenhang besteht. Sind die Ergebnisse des Alignments gut, so ist auch eine gute automatische Erkennung der gleichen Daten zu erwarten, sind die Ergebnisse des Alignments dagegen schlecht, so ist auch eine schlechte Erkennung zu erwarten. Unter Ausnutzung dieses Zusammenhangs können Experimente zur Gewinnung der Trigger auf den Analysen der Daten vorgenommen werden, was eine erhebliche Vereinfachung darstellt und eine Konzentration auf die Trigger erlaubt.Für die Analyse werden die Dialektproben zuerst maschinell segmentiert und anschließend die verschiedenen Ebenen der Segmentierung bezüglich ihrer möglichen Verwendung als Trigger automatisch ausgewertet. Spezifische Unterschiede wie dialektale und hochsprachliche Transliteration, sowie unterschiedliche starke Ausprägungen der jeweiligen Dialekte unterstützen die Auswertung. Die maschinelle Segmentierung erfolgt durch einen Aligner und die Erzeugung der syntaktischen Kategorien durch einen POS-Tagger. 

Die Ergebnisse der Experimente werden diskutiert und auf die Einsetzbarkeit für die automatische Erkennung untersucht. Die bisherigen Versuche zeigten, dass Sprachpausen hervorragende Triggereigenschaften besitzen. Weitere Kandidaten sind Wortklassen, die robust gegen dialektale Einflüsse sind, wie z.B. Funktionswörter, sowie syntaktische Informationen, die im Sprachsignal codiert sind. 

Sprachdaten
Proben aus dem Deutschen Spracharchiv des IDS Mannheim
Literatur
[Ber96] Beringer, N., Der Einfluss dialektaler Variation von Sprechern bei der automatischen Spracherkennung, Studienarbeit, IMS, Universität Stuttgart,1996
[Ber97] Beringer, N., Die dialektale Färbung des Deutschen-ein Problem für die automatische Spracherkenung? Diplomarbeit, DaimlerBenz Ulm / IMS, Universität Stuttgart, 1997
[Kem96] Kemp,T., Regelbasiert generierte Aussprachevarianten für Spontansprache, In: Natural Language Processing and Speech Technology, Bielefeld, 1996
[Moo91] Moosmüller, S., Hochsprache und Dialekt in Österreich, Böhlau-Verlag, 1991
Lehrstuhl für Experimentelle Phonetik | Marcus Fach