|
| Kommerzielle Spracherkennungssysteme realisieren in aller Regel
sprecherabhängige Systeme. Die wenigen sprecherunabhängigen Systeme
sind noch auf kleines Vokabular beschränkt. Diese Systeme sind gegen
schwache dialektale Varianten relativ robust ([Ber96], [Ber97], [Moo91],
[Kem96]). Sind aber starke Dialektvariationen zu erwarten, die sich in
Änderungen der phonologisch/phonetischen, morphologischen und syntaktischen
Ebene manifestieren, müssen bei der automatischen Erkennung neue Wege
beschritten werden.
In der vorliegenden Studie werden verschiedene Dialekte miteinander verglichen,
mit dem Ziel, gemeinsame sprachliche Elemente (im weiteren ,Trigger" genannt)
zu identifizieren. Beim Einsatz solcher Trigger in der automatischen
Spracherkennung wird eine größere Robustheit gegenüber
Abweichungen (hier: Dialekte) der Standardparameter erwartet. Die Suche nach
Triggern wird durch die Tatsache erleichert, dass zwischen Alignment (von
Sprachsignal und entsprechender Verschriftung) und Spracherkennung auf Grund
der gleichen Basistechnologie ein enger Zusammenhang besteht. Sind die Ergebnisse
des Alignments gut, so ist auch eine gute automatische Erkennung der gleichen
Daten zu erwarten, sind die Ergebnisse des Alignments dagegen schlecht, so
ist auch eine schlechte Erkennung zu erwarten. Unter Ausnutzung dieses
Zusammenhangs können Experimente zur Gewinnung der Trigger auf den Analysen
der Daten vorgenommen werden, was eine erhebliche Vereinfachung darstellt
und eine Konzentration auf die Trigger erlaubt.Für die Analyse werden
die Dialektproben zuerst maschinell segmentiert und anschließend die
verschiedenen Ebenen der Segmentierung bezüglich ihrer möglichen
Verwendung als Trigger automatisch ausgewertet. Spezifische Unterschiede
wie dialektale und hochsprachliche Transliteration, sowie unterschiedliche
starke Ausprägungen der jeweiligen Dialekte unterstützen die
Auswertung. Die maschinelle Segmentierung erfolgt durch einen Aligner und
die Erzeugung der syntaktischen Kategorien durch einen POS-Tagger.
Die Ergebnisse der Experimente werden diskutiert und auf die Einsetzbarkeit
für die automatische Erkennung untersucht. Die bisherigen Versuche zeigten,
dass Sprachpausen hervorragende Triggereigenschaften besitzen. Weitere Kandidaten
sind Wortklassen, die robust gegen dialektale Einflüsse sind, wie z.B.
Funktionswörter, sowie syntaktische Informationen, die im Sprachsignal
codiert sind. |
|
|
| Sprachdaten |
|
|
|
|
| Literatur |
|
|
| [Ber96] Beringer, N., Der Einfluss dialektaler Variation von Sprechern
bei der automatischen Spracherkennung, Studienarbeit, IMS, Universität
Stuttgart,1996 |
|
| [Ber97] Beringer, N., Die dialektale Färbung des Deutschen-ein Problem
für die automatische Spracherkenung? Diplomarbeit, DaimlerBenz Ulm /
IMS, Universität Stuttgart, 1997 |
|
| [Kem96] Kemp,T., Regelbasiert generierte Aussprachevarianten für
Spontansprache, In: Natural Language Processing and Speech Technology, Bielefeld,
1996 |
|
| [Moo91] Moosmüller, S., Hochsprache und Dialekt in Österreich,
Böhlau-Verlag, 1991 |
|
|
|
|
|
|
|
|
|
|