Maschinelle Sprachverarbeitung: Was ist das eigentlich?
Ein Leitfaden für Interessierte
Die Fähigkeit, mit natürlicher Sprache zu kommunizieren, ist eine der erstaunlichsten Eigenschaften des Menschen. Sprache ist das wichtigste Medium für Information und Kommunikation. Ohne Sprache ist unser Leben nicht vorstellbar. Die Frage, wie Sprache funktioniert, ist damit eine Grundfrage über die Art und Einzigartigkeit des menschlichen Geistes und der menschlichen Kultur.
Die Wissenschaft, die sich mit der Struktur der Sprache befasst, ist die Linguistik (oder Sprachwissenschaft). Sie untersucht, wie es uns möglich ist, durch die Anwendung einmal erworbener Prinzipien immer neue Gedanken in Worte zu fassen. Die Erkenntnisse aus diesem Wissenschaftsbereich sind eine wichtige Grundlage für anwendungsbezogene Studiengänge wie die Maschinelle Sprachverarbeitung. Der wissenschaftliche und technische Fortschritt der letzten Jahrzehnte hat dazu geführt, dass Maschinen immer besser darin werden, Teile der menschlichen Sprachkompetenz nachzuahmen. Die Maschinelle Sprachverarbeitung befasst sich also mit der so genannten Computerlinguistik und untersucht die Sprache aus einem besonderen Blickwinkel. Ihr geht es darum, die sprachlichen Gesetzmäßigkeiten explizit zu machen, um auf dieser Basis Rechnersysteme zu erstellen, die Sprache verstehen und produzieren können.
Dieses Wissen ist von großer wirtschaftlicher Bedeutung. In unserer arbeitsteiligen Informationsgesellschaft nehmen die Anwendungsmöglichkeiten der maschinellen Sprachverarbeitung rapide zu. Sie reichen von der automatischen Erkennung gesprochener Sprache über die maschinelle Übersetzung von einer Sprache in die andere bis zu Suchmaschinen wie Google. Diese Anwendungen und ihre wissenschaftlichen Grundlagen werden im Bachelor Maschinelle Sprachverarbeitung gelehrt. Der neue Studiengang ist also ideal für alle, die ihr Interesse an Sprache mit einem Interesse an Naturwissenschaft und Technik verbinden wollen. Nach einem abwechslungsreichen Studium haben Absolventen die Möglichkeit, in einer Vielzahl interessanter Berufsfelder zu arbeiten. Auch eine wissenschaftliche Karriere ist eine Option, die von vielen Studierenden in den Bereichen maschinelle Sprachverarbeitung und Computerlinguistik gewählt wird.
Doch welches Fachwissen wird überhaupt benötigt, damit Maschinen "sprechen lernen" und unsere Sprache verstehen können? Dies lässt sich am besten anhand eines kleinen Beispiels veranschaulichen.
Die Abiturienten Selma und Steffen haben sich über mögliche Studiengänge informiert und spielen mit dem Gedanken, einen Bachelor-Abschluss im Bereich der Maschinellen Sprachverarbeitung abzulegen. Dabei findet Selma den Teilbereich der Phonetik besonders spannend, während sich Steffen für die Semantik interessiert. Beide fasziniert der Gedanke, diese linguistischen Teilbereiche mit informatischem Hintergrundwissen zu kombinieren und praktisch anwenden zu können. Selma erfährt nun, dass es eine Datenbank gibt, die Informationen über die an deutschen Universitäten angebotenen Studiengänge enthält und sich telefonisch abfragen lässt. Sie ruft daher die angegebene Nummer an und stellt die folgende Frage:
"Kann man sich in irgendeinem Bachelorstudiengang auf Phonetik und Semantik spezialisieren?"
Die Antwort lässt nicht lange auf sich warten: nach wenigen Sekunden gibt eine freundliche Stimme eine kurze Liste von Studiengängen durch - unter ihnen der Bachelorstudiengang Maschinelle Sprachverarbeitung an der Universität Stuttgart. Selma bedankt sich für die prompte Antwort, legt auf und berichtet am Abend ihrem Freund Steffen von ihrer telefonischen Anfrage und dem Resultat. Die beiden beschließen, mehr Informationsmaterial über die von der Datenbank genannten Studiengänge anzufordern. Vielleicht werden wir die beiden ja demnächst in unserem Institut begrüßen können.
Die Auskunft der Datenbank erfolgte automatisch: ein Computer am anderen Ende der Leitung hat Selmas Anfrage aufgenommen, interpretiert und beantwortet. Wie funktioniert so etwas? Genau dafür werden computerlinguistische Programme und Methoden eingesetzt. Denn natürlich ist der Computer nicht auf Selmas spezielle Anfrage vorbereitet; andererseits verfügt er schon über die erfragte Information - etwa in Form von Tabelle 1 angeordnet. Aber er muss wissen, nach welcher Information überhaupt gefragt wurde. Und dazu muss er Selmas mündliche Anfrage als Suchbefehl verstehen können und dann das Ergebnis in einer für Selma verständlichen Sprache wiedergeben. Schauen wir uns kurz an, wie so etwas funktioniert, um so einen ersten Einblick in die Fragestellungen und Teilgebiete der Maschinellen Sprachverarbeitung zu gewinnen.
| Universität | Fach | Abschlüsse | Anschrift |
|---|---|---|---|
| Jena | Informatik | Bachelor of Science | Friedrich-Schiller-Universität
Fakultät für Mathematik und Informatik 07740 Jena |
| Stuttgart | Maschinelle Sprachverarbeitung | Bachelor of Science | Institut für Maschinelle Sprachverarbeitung (IMS)
Azenbergstraße 12 70174 Stuttgart |
| ... |
| Universität | Fach | Abschlüsse | Anschrift |
|---|---|---|---|
| Jena | Computational Science | Master of Science | Friedrich-Schiller-Universität
Fakultät für Mathematik und Informatik 07740 Jena |
| Stuttgart | Maschinelle Sprachverarbeitung | Master of Science | Institut für Maschinelle Sprachverarbeitung (IMS)
Azenbergstraße 12 70174 Stuttgart |
| ... |
Abbildung 1: Beispieldatenbank
Am Anfang der Auswertung von Selmas Anfrage steht die Spracherkennung (ein Anwendungsbereich für Phonetik, Statistik und Signalverarbeitung), in der es darum geht, aus einen akustischen Brei eine Folge deutscher Wörter zu isolieren. Die akustische Eingabe wird dazu im Computer in Form eines so genannten Sonagramms repräsentiert:
Abbildung 2: Sonagramm
Mit Hilfe statistischer Methoden werden dann Hypothesen darüber, um welche Lautfolge es sich bei den im Sonagramm festgehaltenen Daten handeln könnte, aufgestellt und miteinander verglichen. So lässt sich z.B. die Wortfolge kann man bei schneller Aussprache kaum von Kammer unterscheiden; und Selma, die in Stuttgart aufgewachsen ist, spricht ein Wort wie spezialisieren sicher anders aus als der Hamburger Steffen. Das Ergebnis der automatischen Spracherkennnung ist eine Zerlegung in Einzellaute und -wörter (Segmentierung), wie sie in Abbildung 2 eingezeichnet ist.
Die Identifikation einer Äußerung ist keine rein akustische Angelegenheit. Denn sowohl die genannten Dialektunterschiede und Verschleifungen als auch viele andere für die Spracherkennung wichtige Faktoren unterliegen sprachlichen Regularitäten, die sich nicht in rein physikalischen Begriffen fassen lassen. So ist beispielsweise die Verschleifung von kann man zu kamman nicht nur Ausdruck von Mundfaulheit, sondern beachtet zugleich die Artikulationsregeln der deutschen Umgangssprache: in anderen Sprachen, ja sogar schon in anderen sprachlichen Kontexten ist die Verschleifung von n + m zu m nicht möglich; so sagt man z.B. nicht Ummut für Unmut. Diese Art von lautlichen Gesetzmäßigkeiten untersucht die Phonologie, in der die Laute einer Sprache als symbolisches System beschrieben werden. Zu diesem Lautsystem gehören auch die Betonungs- und Intonationsgesetze; letztere können zum Beispiel dazu beitragen, dass Selmas Äußerung als Frage verstanden wird. In der Phonologie sind exakte Notationssysteme entwickelt worden, die es gestatten, diejenigen Aspekte der Lautstruktur, die für ihre Interpretation wichtig sind, eindeutig zu charakterisieren. Die Intonationsstruktur-Zerlegung der Anfrage in Einzellaute (Phoneme) wird z.B. durch eine Abfolge hoher (high) und tiefer (low) Töne dargestellt:
Abbildung 3: Intonatorische Analyse von Selmas Anfrage
Will man ein gegebenes Sprachsignal als deutschen Satz identifizieren, genügt es nicht, ihn in einzelne Teile zu zerlegen, die dann in einer vorgegebenen Liste, dem Lexikon des Deutschen, nachgeschlagen werden. Zunächst einmal besteht Selmas Frage nicht aus Wörtern, sondern aus Wortformen: irgendeinem ist der Dativ von irgendein, kann die 3. Person Singular von können etc. Und ein Lexikon, das all diese Wortformen einzeln auflistet, wäre wenig praktikabel und hoffnungslos redundant. Denn zwischen den Wortformen und den dazugehörigen Wörtern bestehen systematische Zusammenhänge. Diese werden in der Morphologie, der Lehre von der Zusammensetzung der Wörter, beschrieben. Die Morphologie deckt also einen Teil dessen ab, was traditionell als Grammatik bezeichnet wird, nämlich die sog. Flexion oder Beugung. Aber auch Wortbildungsmuster werden in der Morphologie untersucht wie die Zusammensetzung von Bachelorstudiengang aus Bachelor und Studiengang. Das Ergebnis einer morphologischen Analyse von Selmas Anfrage ist die eindeutige Identifizierung ihrer Teile als Formen bestimmter, im Lexikon aufgelisteter Wörter. Es lässt sich etwa folgendermaßen darstellen:
Abbildung 4: Morphologische Analyse von Selmas Eingabe
Die morphologische Analyse sagt noch nichts über die Beziehungen der Wortformen im Satz aus: man ist das Subjekt, sich bezieht sich auf man (und nicht auf Studiengang) usw. Diese grammatischen Beziehungen bilden den Gegenstandsbereich der Syntax. Die genaue Analyse der syntaktischen Struktur eines Satzes ermöglicht überhaupt erst dessen Interpretation; so macht die spezielle Wortstellung (mit dem finiten Verb am Anfang) Selmas Äußerung eindeutig als Frage(-satz) kenntlich. Die syntaktische Struktur eines Satzes lässt sich weitgehend in Form eines sogenannten Baum-Diagramms darstellen:
Abbildung 5: Syntaktische Analyse von Selmas Anfrage
Dieses Baum-Diagramm stellt die verschiedenen Ebenen der Zusammengehörigkeit der Teile von Selmas Anfrage dar und kategorisiert sie unter syntaktischen Gesichtspunkten: PP steht dabei für Präpositionalphrase, NP[nom] für Nominalphrase im Nominativ, V[inf] für Verb im Infinitiv etc. Das Diagramm liefert noch keine echte Interpretation; eine solche muss ja über die sprachliche Form hinausgehen - nämlich in den Bereich des Inhalts, für den die Semantik zuständig ist. In der semantischen Analyse werden die syntaktischen Bezüge in logische Operationen übersetzt, denen im vorliegenden Fall wiederum Suchprozeduren entsprechen. Spätestens hier müssen auch eventuelle Mehrdeutigkeiten entdeckt und aufgelöst werden. So kann man Selmas Anfrage in zweierlei Sinn verstehen, nämlich als Frage nach der Möglichkeit einer gleichzeitigen oder aber einer alternativen Spezialisierung, wobei Selma natürlich letzteres im Sinn hat. Der Unterschied zwischen diesen beiden Lesarten schlägt sich in verschiedenen semantischen Repräsentationen nieder:
Abbildung 6: Alternative semantische Repräsentationen von Selmas Anfrage
Aus diesen durch die semantische Analyse bereitgestellten Lesarten muss nun die richtige ausgewählt werden. Die Kriterien für die Auswahl der in einer bestimmten Situation am ehesten gemeinten Lesart werden in der Pragmatik (= Lehre vom Verwendungszweck sprachlicher Ausdrücke) systematisch untersucht. Zur Pragmatik gehört schließlich auch, dass im Falle einer positiven Antwort auf Selmas Anfrage das System nicht nur einfach mit Ja antworten, sondern möglichst auch eine Liste der einschlägigen Studiengänge angeben sollte.
Doch bevor dies geschehen kann, muss natürlich ein entsprechender Suchvorgang in Gang gesetzt werden, dessen Konstruktion und Effizienz ins Gebiet der Informatik fallen. Ist die Antwort auf Selmas Anfrage erst einmal gefunden, muss sie nun wiederum in eine sprachliche Form umgewandelt werden. An diesem Prozess sind alle Teildisziplinen der Computerlinguistik sozusagen in spiegelbildlicher Form beteiligt: die zunächst als Datenmenge vorliegenden Information wird in eine semantische Repräsentation überführt, für die dann wiederum eine syntaktische Struktur gefunden wird, die schließlich von einem künstlichen Sprachgenerator möglichst naturgetreu ausgesprochen wird.
Vieles an dem obigen Szenario ist unrealistisch. In der Praxis werden die einzelnen Verarbeitungsschritte weniger voneinander getrennt ablaufen, als es die obige Darstellung nahelegt; schon Effizienzgründe sprechen gegen eine solche Vorgehensweise. Doch das kleine Beispiel sollte auch nur einen Überblick über die Teildisziplinen der Computerlinguistik geben und einen ersten Eindruck von den Problemen vermitteln, mit denen sie sich beschäftigt.
Datenbankabfragen stellen keineswegs den einzigen Anwendungsbereich der Maschinellen Sprachverarbeitung dar. Ein weiterer Bereich, in dem gerade am IMS intensiv geforscht wird und in dem die einzelnen Teilbereiche in ähnlich komplexer Weise zusammenarbeiten, ist die automatische Übersetzung. Daneben gibt es speziellere Einsatzgebiete computerlinguistischer Methoden, in denen einzelne Teilbereiche der Maschinellen Sprachverarbeitung im Vordergund stehen wie zum Beispiel die Entwicklung von Lesemaschinen für Blinde, für deren Konstruktion phonetisches Know-how eine größere Rolle spielt als syntaktisch-semantisches Wissen.