|
|
|
|
|
|
|
|
|
|
|
Maschinelle Segmentierung von Korpora
gesprochener Sprache des IDS (Alignment-Projekt)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Zusammenfassung: |
|
|
|
|
|
|
|
|
Ziel dieses Projektes ist ein automatisches Alignment von Daten gesprochener
Sprache des IDS. Unter Alignment ist die Segmentierung und Annotation von
Sprachsignal und zugehörigem Text zu verstehen. Das Ergebnis dieser
Bearbeitung ist eine maschinenlesbare Repräsentation der Sprachaufnahmen.
Für das IDS bietet diese Repräsentation die einfachste und schnellste
Möglichkeit, die direkte Abbildung von Text auf Sprachsignal in die
dort entwickelte Datenbank COSMAS zu integrieren. Die Bereitstellung so immenser
maschinenlesbarer Daten stellt eine wesentliche Voraussetzung für die
Weiterentwicklung der Sprachtechnologien wie Sprachsynthese und Spracherkennung
am IMS dar. |
|
|
|
|
|
|
|
|
| Beschreibung des Projekts: |
|
|
|
|
|
Das IDS verfügt über große Mengen an gesprochenem Deutsch
aus den verschiedensten dialektalen Bereichen und Aufnahmesituationen (Aufnahmen
aus Fernsehen, Radio und "Feldforschung"). Diese Aufnahmen liegen in
unterschiedlichster Form und in unterschiedlicher Audioqualität vor.
Ein großer Teil der Aufnahmen ist transkribiert, und die Menge der
maschinenlesbaren Transkriptionstexte wächst fortlaufend. Durch die
Erstellung der maschinenlesbaren Transkriptionstexte ist es nun möglich,
mittels der am IMS realisierten
Alignment-Werkzeuge
die Abbildung (Annotation) von Transkription auf die Sprachsignale automatisch
zu erstellen. Dabei handelt es sich um eine Abbildung auf Wortebene, die
es ermöglicht, mit den einfachen Methoden der Textrecherche Ausschnitte
aus einem beliebigen Sprachsignal zu erhalten. Ziel des weiteren Korpusaufbaus
ist die Aufnahme von Text, digitalisiertem Ton und den Annotationen in die
am IDS installierte Datenbank
COSMAS (bzw.
COSMAS II).
Aus Sicht des IDS kommt dem Alignment von natürlichsprachigen
Gesprächskorpora eine strategische Bedeutung zu. Damit werden in neuartiger
Weise automatische Recherchen und Auswertungen des Sprachkorpus möglich,
die einem großen Spektrum von Untersuchungsinteressen dienen können.
So können umfangreiche sprachwissenschaftliche Studien über die
interne Struktur der deutschen Sprache einschließlich der Dialekte
durchgeführt werden, für die bislang kein ausreichendes Sprachmaterial
maschinell zugreifbar war.
Ausführliche Beschreibung des Projektes findet sich
hier. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| Fri Feb 12 11:12:47 1999
(mf) |
|
|
|
|
|
|
|