Bild von Institut mit Unilogo
home uni uni suche suche kontakt kontakt
unilogo Universität Stuttgart

Parallele Korpora in der Sprachverarbeitung, Sommersemester 2010

 
 

Leitung: Sebastian Padó
Zeit: Seminar (Do 15:45-17:15). Entfällt: 13.5. (Himmelfahrt), 27.5. (Abwesenheit), 3.6. (Fronleichnam), 15.7. (Abwesenheit)
Ort: 12.21 (IMS)

Inhalt

Das Seminar diskutiert die aktuelle Literatur zur Verwendung paralleler Korpora -- sowohl ein- als auch mehrsprachig -- in der maschinellen Sprachverarbeitung. Dabei liegt der Schwerpunkt auf der Induktion linguistischen Wissens; das Thema "Maschinelle Übersetzung" wird nur am Rande gestreift. Das Seminar wird um fünf zentrale Aspekte der Verwendung paralleler Korpora aufgebaut sein:

  • Alinierung: Wie werden Wörter in parallelen Korpora aliniert, d.h. einander zugeordnet?
  • Das Wesen von parallelen Korpora: Wie parallel sind die sprachlichen Strukturen wirklich? Wie parallel sind Übersetzungen?
  • Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora
  • Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora
  • Jenseits von parallelen Korpora: Was tun, wenn es keine parallelen Korpora gibt?

Auf dieser Webseite werden Vorlesungsnotizen verfügbar gemacht. Wenn es sich anbietet, werden auch Aufgaben verteilt, die in der jeweils folgenden Woche besprochen werden,

Gegen Ende des Semesters hat das Seminar auch einen methodologischen Teil. In einer Sitzung wird es darum gehen, wie man Papiere beim Begutachten von Konferenzpapieren auf methodische und inhaltliche Probleme abklopft. In der folgenden Sitzung werden dann 1-2 Papiere aus dem Thema des Seminars gemeinsam diskutiert und bewertet.

Zeitplan

 
Thema Literatur Material
22.4. Einführung, Grundlagen Notizen.
EN-DE Satzpaare zur Alinierung
29.4. Alinierung: Manuelle Satz- und Wortalinierung I. Dan Melamed (1998): Blinker Annotation Style Guidelines. Technical Report, Columbia University.
J. Veronis (2000): Evaluation of parallel text alignment systems - The ARCADE project. In J. Véronis (Ed.), Parallel text processing: Alignment and use of translation corpora (pp. 369-388). Dordrecht: Kluwer Academic Publishers.
Notizen.
6.5. Alinierung: Automatische Alinierungsmodelle E. Pianta and L. Bentivogli (2004): Knowledge intensive word alignment with KNOWA. COLING 2004.
J. Tiedemann (2003): Combining clues for word alignment. EACL 2003.
H.J. Och and H. Ney (2003): A systematic comparison of various statistical alignment models. Computational Linguistics.
Notizen.
20.5. Alinierungsmodelle (Teil 2), Heuristiken J. Tiedemann: Word to word alignment strategies. COLING 2004.
Notizen.
Aufgaben zum Thema Evaluation
10.6. Evaluation von Word Alignment, Projektion von syntaktischer Information A. Fraser, D. Marcu: Measuring Word Alignment Quality for Statistical Machine Translation. Computational Linguistics.
R. Hwa, P. Resnik, A. Weinberg, C. Cabezas, O. Kolak: Bootstrapping parsers via syntactic projection across parallel texts. Natural Language Engineering, Volume 11, Issue 03. 2005. Link.
17.6. Semantischer Parallelismus C. Fillmore, C. Johnson, M. Petruck: Background to Framenet. International Journal of Lexicography 2003 16(3):235-250.
S. Pado, M. Lapata: Cross-lingual Annotation Projection of Semantic Roles. Journal of Artificial Intelligence Research 36, 307-340. 2009.
Notizen.
Aufgaben: Konkrete Beispiele für syntaktische und semantische Projektion
24.6. Besprechung der konkreten Beispiele für syntaktische Projektion
1.7. Übersetzungsdivergenzen und konkrete Beispiele für semantische Projektion L. Cyrus: Building a resource for studying translation shifts. Proc. LREC 2006.
S. Pado, K. Erk:
Translation Shifts and Frame-Semantic Mismatches: A Corpus Analysis. International Journal of Corpus Linguistics. Accepted for publication.
Notizen
8.7. Induktion von Information aus nichtannotierten Quellkorpora Mona T. Diab, Philip Resnik: An Unsupervised Method for Word Sense Tagging using Parallel Corpora . Proceedings of ACL 2002.
Sina Zarrieß and Jonas Kuhn: Exploiting Translational Correspondences for Pattern-Independent MWE Identification. Proceedings of the 2009 Workshop on Multiword Expressions.
Notizen
15.7. entfällt (ACL)
22.7. Vergleichbare Korpora Notizen
Aufgaben
 
 
 
 

Themenkomplex II: Übersetzung und Parallelismus

 
Thema Materialien
Dependenzrelationen
Semantische RollenS. Pado, K. Erk: Translation Shifts and Frame-Semantic Mismatches: A Corpus Analysis. International Journal of Corpus Linguistics. Accepted for publication. Link.
Typologie von ÜbersetzungsdivergenzenL. Cyrus: Building a resource for studying translation shifts. Proc. LREC 2006. Link.
 
 

Themenkomplex III: Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora

 
Thema Materialien
MehrwortausdrückeSina Zarrieß and Jonas Kuhn: Exploiting Translational Correspondences for Pattern-Independent MWE Identification. In Proceedings of the 2009 Workshop on Multiword Expressions. Link.
LesartenMona T. Diab, Philip Resnik: An Unsupervised Method for Word Sense Tagging using Parallel Corpora. Proceedings of ACL 2002. Link.
ParaphrasenColin Bannard; Chris Callison-Burch Paraphrasing with Bilingual Parallel Corpora. Proceedings of ACL 2005. Link.
 
 

Themenkomplex IV: Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora

 
Thema Materialien
Chunks, Parts of Speech David Yarowsky; Grace Ngai: Inducing Multilingual POS Taggers and NP Bracketers via Robust Projection Across Aligned Corpora. Proceedings of NAACL 2001. Link.
LesartenLuisa Bentivogli and Emanuele Pianta, "Exploiting parallel texts in the creation of multilingual semantically annotated resources: the MultiSemCor Corpus". Natural Language Engineering, Special Issue on Parallel Texts. Link.
Zeitinformation Spreyer, K. and Frank, A. (2008): Projection-based Acquisition of a Temporal Labeller. Proceedings of the 3rd International Joint Conference on Natural Language Processing. Link.
 
 

Themenkomplex V: Vergleichbare und nichtparallele Korpora

 
Thema Materialien
Paraphrasen aus vergleichbaren KorporaRegina Barzilay; Lillian Lee: Bootstrapping Lexical Choice via Multiple-Sequence Alignment. Proceedings of EMNLP 2003. Link.
Übersetzungen in nichtparallelen TextenReinhard Rapp: Identifying Word Translation in Non-Parallel Texts. Proceedings of ACL 1995. Link.
Pascale Fung and Percy Cheung: Mining Very-Non-Parallel Corpora: Parallel Sentence and Lexicon Extraction via Bootstrapping and EM. Proceedings of EMNLP 2004. Link.