Institut

Studium

Forschung


zur Startseite

 

Maschinelle Segmentierung von Korpora gesprochener Sprache des IDS (Alignment-Projekt)
Zusammenfassung:
Ziel dieses Projektes ist ein automatisches Alignment von Daten gesprochener Sprache des IDS. Unter Alignment ist die Segmentierung und Annotation von Sprachsignal und zugehörigem Text zu verstehen. Das Ergebnis dieser Bearbeitung ist eine maschinenlesbare Repräsentation der Sprachaufnahmen. Für das IDS bietet diese Repräsentation die einfachste und schnellste Möglichkeit, die direkte Abbildung von Text auf Sprachsignal in die dort entwickelte Datenbank COSMAS zu integrieren. Die Bereitstellung so immenser maschinenlesbarer Daten stellt eine wesentliche Voraussetzung für die Weiterentwicklung der Sprachtechnologien wie Sprachsynthese und Spracherkennung am IMS dar. 
 Beschreibung des Projekts:
Das IDS verfügt über große Mengen an gesprochenem Deutsch aus den verschiedensten dialektalen Bereichen und Aufnahmesituationen (Aufnahmen aus Fernsehen, Radio und "Feldforschung"). Diese Aufnahmen liegen in unterschiedlichster Form und in unterschiedlicher Audioqualität vor. Ein großer Teil der Aufnahmen ist transkribiert, und die Menge der maschinenlesbaren Transkriptionstexte wächst fortlaufend. Durch die Erstellung der maschinenlesbaren Transkriptionstexte ist es nun möglich, mittels der am IMS realisierten Alignment-Werkzeuge die Abbildung (Annotation) von Transkription auf die Sprachsignale automatisch zu erstellen. Dabei handelt es sich um eine Abbildung auf Wortebene, die es ermöglicht, mit den einfachen Methoden der Textrecherche Ausschnitte aus einem beliebigen Sprachsignal zu erhalten. Ziel des weiteren Korpusaufbaus ist die Aufnahme von Text, digitalisiertem Ton und den Annotationen in die am IDS installierte Datenbank COSMAS (bzw. COSMAS II). 

Aus Sicht des IDS kommt dem Alignment von natürlichsprachigen Gesprächskorpora eine strategische Bedeutung zu. Damit werden in neuartiger Weise automatische Recherchen und Auswertungen des Sprachkorpus möglich, die einem großen Spektrum von Untersuchungsinteressen dienen können. So können umfangreiche sprachwissenschaftliche Studien über die interne Struktur der deutschen Sprache einschließlich der Dialekte durchgeführt werden, für die bislang kein ausreichendes Sprachmaterial maschinell zugreifbar war. 

Ausführliche Beschreibung des Projektes findet sich hier.

Institut für deutsche Sprache (IDS)
Lehrstuhl für Experimentelle Phonetik (IMS)
Fri Feb 12 11:12:47 1999 (mf)