Schwerpunkte der folgenden Angebote sind
- Verfahren der Corpusverarbeitung (Schwerpunkt Deutsch)
- Detailuntersuchungen zur corpuslinguistischen Verarbeitung des
Deutschen, verbunden mit Datenakquisition für den Lexikonaufbau
- Elektronische Wörterbücher
- Corpuslinguistik für andere Sprachen als Deutsch.
Die Themen können je nach Vorkenntnissen und Zielsetzungen als
Studienarbeiten (S), als Diplomarbeiten (D) und in bestimmten Fällen, nach Absprache auch
als Hilfskraftarbeiten (H) durchgeführt werden.
Die Themen stehen mit den Forschungsthemen des Bereichs Linguistische
Ressourcen der Abteilung Angewandte Computerlinguistik im Zusammenhang.
(1) Verfahren der Corpusverarbeitung
Hier liegt der Schwerpunkt auf Techniken der Corpusverarbeitung.
Die Beispielcorpora sollten zum Deutschen sein, nach Absprache auch
für andere Sprachen.
Themenvorschläge:
- Named Entity Recognition mit linguistischen Patterns in CQP (D,
S)
- Metadatenidentifikation und Metadatenkodierung für
Newsgroup-Corpora: Deutsch und Italienisch.
Corpora sind vorhanden; Ziel ist die Identifikation von Metadaten, die
Aufbereitung der Corpora (Eliminierung von Redundanzen etc.), die
Kodierung und ggf. Abfrage von Texten als "comparable corpus". (S)
- Aufbau eines juristisches Fachcorpus für Deutsch (und
z.T. für Englisch). Anschluß einer sehr großen Textsammlung an
eine flache Domänenontologie der Juristerei. Corpusaufbereitung,
Strukturierung und Metadatenannotation. Studie zu Metadaten für
juristische Corpora. Zum Teil können auch Paralleltexte verfügbar
gemacht werden. Die Arbeit kann nur bei Bereitschaft zur
Beschäftigung mit juristischen Informationssystemen etc.
durchgeführt werden. (D, S)
- Ergänzung des Kollokationsextraktionsverfahrens von Julia Ritz
(2005). Das System ist implementiert. Es soll um weitere Merkmale
ergänzt werden. Diese betreffen die Akquisition folgender
Phänomentypen (D):
- Unterscheidung Aktiv/Passiv
- Tempus von finiten Verben
- Subkategorisierungsrahmen von Verben bzw. Nomina in
N+V-Kollokationen; z.B. Nomina mit Satzkomplement.
- Portionierung des analysierten Corpus in V1, V2 und Vletzt-Sätze.
- Adverbien in N+V-Kollokationen
- Verfahren zur Suche von Kollokationsokkurrenzen in Corpora. Dabei
sind die Kollokationen bekannt, und das Verfahren soll möglichst gute
Precision liefern (S).
- Verfahren zur Suche nach Beispielen für Subkategorisierungsrahmen.
Ausgehend von einem syntaktischen Wörterbuch sollen möglichst viele
Sätze gefunden werden, in denen die SK-Rahmen aus dem Wörterbuch
vorkommen. Das Wörterbuch liegt in XML vor. Die Arbeit kann für
Deutsch oder für Englisch erledigt werden (S).
(2) Corpuslinguistik Deutsch für den Wörterbuchaufbau
Zu entwicklen sind auf CQP o.ä. beruhende Verfahren der lexikalischen
Datenextraktion für Deutsch. Dabei interessieren die unten angegebenen
Phänomene besonders. Alle Themen sollen parallel auch die verfügbare
linguistische Literatur aufarbeiten.
Themenvorschläge:
- Kollokationen (N+V):
- Kollokationsverhalten von morphologisch verwandten Wörtern (D,
Teile als S)
- Nomina vs. Nominalkomposita (Pause, ... , Rauchpause,
Denkpause, ... , einlegen ); Sonderfälle: Hilfe leisten/Hilfestellung
leisten (Nichtkopf "vererbt" seine Kollokationspräferenzen).
- Nomen/Verb-Kollokationen vs. Komposita, Derivate etc:
Antrag stellen/Antragstellung/Antragsteller
- Diatopische Kollokationsvariation
Deutschland/Schweiz/Österreich/Südtirol (S).
- Morphologische und lexikalische Helvetismen bzw.
Austriazismen: Zugsverbindung, die Trafik, beim Fenster
hinausschauen, an eine Tagung gehen. Einzelbereiche nach
Absprache (S, ggf., bei theoretischer und
soziolinguistischer/varietäten linguistischer Analyse,
auch D).
- Syntaktische Eigenschaften von Lexemen
- Distributionspräferenzen von Adverbien: bei Adjektiven, bei
Verben, oder als Satzadverbien? (S)
- Lexikalisierte Partizipien: Tests auf verbalen vs. adjektivalen
Charakter (D,S)
- Mehrwortausdrücke der juristischen Fachsprache: Adverbien und
Adjektive in juristischen Texten (Bsp: Mängel arglistig
verschweigen) (S).
- Mehrwortausdrücke:
- Mehrwort-Adverbien, -Präpositionen etc.:
- Akquisition und Aufbau eines Lexikons (S, H),
- Einbindung in das Lexikonkonzept von IMSLex,
bzw. Erweiterung des IMSLex-Konzepts (D)
- Idiomatische Wendungen (z.B. `eines schönen Tages'):
Trennung von
Kollokationen, Funktionsverbgefügen, etc.
- Akquisition und Aufbau eines Lexikons (S, H)
- Ermittlung von Beispielmaterial für count nouns und
mass nouns aus Korpora
(mehr Infos) (S)
- Akquisition und Aufbau eines Lexikons (S, H)
Verb vs. Kollokation: Kontextbedingungen und -eigenschaften
von Belegen für Kollokationen (N+V) vs. Belegen von
quasi-synonymen Verben (zur Darstellung bringen vs.
darstellen). Vgl. die germanistische Diskussion zur
Leistung der Funktionsverbgefüge. Eingeschränkt auf
Nominalisierungen mit -ung.
Syntaktische Subkategorisierung:
- von Nomina (ggf. mit Bezug zu evtl. einer Nominalisierung
zugrundeliegenden Simplizia, S)
- von Verben und Adjektiven: Verarbeitung sehr großer
Datenmengen und Ergänzung von IMSLex (S)
- Subkategorisierung und Zusammenhänge mit distributionellen
Phänomenen (D; Teilbereiche
als S):
-
Valenz und Morphosyntax (vgl. die laufende Dissertation von
Katerina Lapshinova)
-
Problem:
Viele Valenzkonstruktionen (d.h. Subkategorisierungsrahmen)
sind nicht mit beliebigen lexikalischen Füllungen oder nicht mit
beliebigen lexikalischen oder morphosyntaktischen Merkmalen des
valenztragenden Verbs denkbar. Ein Beispiel ist
berechnen : es kann einen dass-Satz nehmen, aber bevorzugt oder
ausschließlich, wenn es selber in einer Vergangenheitszeit steht oder
unter einem Modalverb eingebettet ist. Solche Einschränkungen für
die Verbsubkategorisierung sind noch sehr wenig untersucht.
-
Aufgaben:
-
Erstellung von Suchanfragen für bestimmte
SK-Phänomene (oder Nutzung bzw. Adaptation
bestehender Anfragen), z.B. für satzförmige Komplemente.
-
Analyse sehr großer Datenmengen (ca. 600 Mio.
Wörter) im Hinblick auf die angestrebten Phänomene;
-
Feststellung von lexikalischen oder morphosyntaktischen
Einschränkungen der SK-Phänomene bei bestimmten Verben;
-
Integration der Ergebnisse im IMSLex.
Morphosemantisches Wörterbuch:
Viele Derivationsaffixe (z.B.
-lich, -ling, ...) sind polysem. Für einzelne Lesarten sind
Belege zu extrahieren und z.B. mit WordNet oder anderen Ressourcen nach
morphologischen Mustern zu trennen (S, D)
(3) Elektronische Wörterbücher
Hier spielt die lexikalische Repräsentation eine besondere Rolle. Zum
Teil soll sie ergänzt werden durch Datenextraktion. Als
Modellierungsformalismus verwenden wir OWL-DL.
Themenvorschläge:
- Modell (und Population) eines englischen Syntaxwörterbuchs in OWL-DL:
Ausganspunkt ist das in XML kodierte Wörterbuch von Götz/Herbst/Roe
2005, A Valency Dictionary of English. Hierfür soll ein Modell
erstellt werden, und die XML-Daten sollen in das Modell importiert werden
(D).
- Ein Teilmodell für markierten Wortschatz:
Ausgehend von Ideen aus
dem Projekt Models for electronic dictionaries
(finanziert vom Stellenbosch Institute for Advanced Studies) soll
ein Modell für nach Register, geographischem Raum, Stil
usw. markierte Wörter, Wortverbindungen und Verwendungsweisen
realisiert
werden. Beispielfälle sollen aus Literatur, Wörterbüchern und
Corpora genommen werden (S).
- Ein GUI für ein elektronisches Wörterbuch der Kollokationen:
Aufbauend auf Schunk (2006) sollen Möglichkeiten der Abfrage und
der Datenrepräsentation für ein Kollokationswörterbuch auf der
Basis von OWL-DL untersucht werden. Das OWL-DL-Modell existiert
(Spohr 2005). Weitere Daten sind aus Ritz (2005) zu übernehmen,
ggf. auch aus anderen Quellen oder aus Corpora zu akquirieren (S,D).
- Ein Wörterbuch morphologisch verwandter Wörter und ihrer
Subkategorisierung:
Die Wörter darstellen - Darstellung - darstellbar -
Darsteller etc. hängen zusammen. Solche Zusammenhänge sollen
in OWL
modelliert werden, morphologisch, morphosemantisch,
valenz-syntaktisch und ggf. lexikalisch-semantisch. Daten sind aus
Corpora mit CQP und SMOR zu gewinnen. Sie sind dann dem
OWL-DL-Modell einzuverleiben. Relevante Abfragen an das Modell sind zu
formulieren (D,S).
- Merging bestehender elektronischer Wörterbuchdaten:
Aus
verschiedenen kommerziellen Wörterbüchern sollen Lesarten
polysemer Wörter extrahiert und verglichen werden. Die von den
Lexikographen benutzten Lesartanzeiger (Synomyme, Kollokationen,
Domänenangaben usw.) sollen identifiziert und unter Nutzung von
computerlinguistischen Methoden und Ressourcen (Parsing, Nutzung
von WordNet, etc.) zusammengeführt werden (D).
- Abgleich von Lesarten: Wörterbuch vs. Corpustext:
analoge
Fragestellung wie oben bei "Merging bestehender elektronischer
Wörterbuchdaten", aber mit dem Ziel, Sätze aus einem Textcorpus
auf Lesarten eines Wörterbuchs abzubilden (D).
(4) Corpuslinguistik für andere Sprachen als Deutsch
Akquisition lexikalischer Informationen aus Texten
- Niederländisch:
- Entwicklung einer FST-basierten Flexionsmorphologie (S);
- Entwicklung eines FST-basierten Systems zur Analyse von
komplexen Wörtern (Derivation, Komposition) im Zusammenhang
der Extraktion von Termkandidaten aus Texten (D,I);
- Nutzung von chunked Corpora für die Akquisition von
Mehrwortpräpositionen und -adverbien (S, z.B. parallel
für Niederländisch und Deutsch)
- Experimente zur Identifikation von syntaktischen
Subkategorisierungsrahmen aus chunked text (Verben, Nomina; S,D);
- Französisch, Italienisch:
- Extraktion von Terminologiekandidaten Italienisch (S, D,
I);
- Kollokationsextraktion Französisch oder Italienisch (D,S).
- Extraktion von syntaktischen Subkategorisierungsmustern aus
italienischen Corpustexten, samt lexikalischen Füllern. Ziel:
Erstellung lexikalischer Listen mit Subkategorisierung,
Kollokationen und/oder Selektionsangaben. Analyse in
verschiedenen Textsorten.
- Afrikaans:
- Optimierung eines vorhandenen Tagsets und Entwicklung von
Parameterdaten für Zeitungstext (S).
- Experimente zur Kollokationsextraktion (N+Adj, N+V).
- Spanisch, Katalanisch:
- Entwicklung und Training eines POS-Taggers (S)
- Extraktion von Information zur syntaktischen
Subkategorisierung(S, D)
- Dänisch, Schwedisch (nur nach Absprache):
- Entwicklung eines POS-Taggers aus lexikalischem
Listenmaterial (S, I)
- Entwicklung einer FST-basierten Flexionsmorphologie.
Weitere Themen sind in Vorbereitung.
Stand: 8. Dezember 2006