 |
|
Leitung: Sebastian Padó
Zeit: Seminar (Do 15:45-17:15). Entfällt: 13.5. (Himmelfahrt), 27.5. (Abwesenheit), 3.6. (Fronleichnam), 15.7. (Abwesenheit)
Ort: 12.21 (IMS)
Inhalt
Das Seminar diskutiert die aktuelle Literatur zur Verwendung
paralleler Korpora -- sowohl ein- als auch mehrsprachig -- in der
maschinellen Sprachverarbeitung. Dabei liegt der Schwerpunkt auf der
Induktion linguistischen Wissens; das Thema "Maschinelle Übersetzung"
wird nur am Rande gestreift. Das Seminar wird um fünf zentrale Aspekte
der Verwendung paralleler Korpora aufgebaut sein:
- Alinierung: Wie werden Wörter in parallelen Korpora aliniert, d.h. einander zugeordnet?
- Das Wesen von parallelen Korpora: Wie parallel sind die
sprachlichen Strukturen wirklich? Wie parallel sind Übersetzungen?
- Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora
- Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora
- Jenseits von parallelen Korpora: Was tun, wenn es keine parallelen Korpora gibt?
Auf dieser Webseite werden Vorlesungsnotizen verfügbar gemacht.
Wenn es sich anbietet, werden auch Aufgaben verteilt, die in der
jeweils folgenden Woche besprochen werden,
Gegen Ende des Semesters hat das Seminar auch einen methodologischen
Teil. In einer Sitzung wird es darum gehen, wie man Papiere beim
Begutachten von Konferenzpapieren auf methodische und inhaltliche
Probleme abklopft. In der folgenden Sitzung werden dann 1-2 Papiere
aus dem Thema des Seminars gemeinsam diskutiert und bewertet.
Zeitplan
| Thema
| Literatur
| Material
|
| 22.4. Einführung, Grundlagen | | Notizen. EN-DE Satzpaare zur Alinierung
|
| 29.4. Alinierung: Manuelle Satz- und Wortalinierung |
I. Dan Melamed (1998): Blinker Annotation Style Guidelines. Technical Report, Columbia University.
J. Veronis (2000): Evaluation of parallel text alignment systems - The ARCADE project. In J. Véronis (Ed.), Parallel text processing: Alignment and use of translation corpora (pp. 369-388). Dordrecht: Kluwer Academic Publishers.
| Notizen.
|
| 6.5. Alinierung: Automatische Alinierungsmodelle | E. Pianta and
L. Bentivogli
(2004): Knowledge
intensive word alignment with KNOWA. COLING 2004.
J. Tiedemann
(2003): Combining
clues for word alignment. EACL 2003. H.J. Och and H. Ney
(2003): A
systematic comparison of various statistical alignment
models. Computational Linguistics.
| Notizen.
|
| 20.5. Alinierungsmodelle (Teil 2), Heuristiken |
J. Tiedemann: Word to word alignment strategies. COLING 2004.
| Notizen. Aufgaben zum Thema Evaluation
|
| 10.6. Evaluation von Word Alignment, Projektion von syntaktischer
Information | A. Fraser,
D. Marcu: Measuring
Word Alignment Quality for Statistical Machine Translation. Computational Linguistics.
R. Hwa, P. Resnik, A. Weinberg, C. Cabezas, O. Kolak: Bootstrapping
parsers via syntactic projection across parallel texts. Natural
Language Engineering, Volume 11, Issue
03. 2005. Link.
|
|
| 17.6. Semantischer Parallelismus
| C. Fillmore, C. Johnson, M. Petruck: Background to Framenet. International Journal of Lexicography 2003 16(3):235-250.
S. Pado, M. Lapata: Cross-lingual Annotation Projection of Semantic Roles. Journal of Artificial Intelligence Research 36, 307-340. 2009.
| Notizen. Aufgaben: Konkrete Beispiele für syntaktische und semantische Projektion
|
|
| 24.6. Besprechung der konkreten Beispiele für syntaktische Projektion
|
| 1.7. Übersetzungsdivergenzen und konkrete Beispiele für semantische Projektion
|
L. Cyrus: Building a resource for studying translation shifts. Proc. LREC 2006.
S. Pado, K. Erk: Translation Shifts and
Frame-Semantic Mismatches: A Corpus Analysis. International Journal of
Corpus Linguistics. Accepted for publication.
| Notizen
|
| 8.7. Induktion von Information aus nichtannotierten Quellkorpora
| Mona T. Diab, Philip
Resnik: An
Unsupervised Method for Word Sense Tagging using Parallel
Corpora . Proceedings of ACL 2002.
Sina Zarrieß and Jonas Kuhn:
Exploiting Translational Correspondences for Pattern-Independent MWE
Identification. Proceedings of the 2009 Workshop on Multiword
Expressions.
| Notizen
|
| 15.7. entfällt (ACL)
|
| 22.7. Vergleichbare Korpora |
|
Notizen Aufgaben
|
Themenkomplex II: Übersetzung und Parallelismus
| Thema
| Materialien
|
| Dependenzrelationen |
| | Semantische Rollen | S. Pado, K. Erk: Translation Shifts and
Frame-Semantic Mismatches: A Corpus Analysis. International Journal of
Corpus Linguistics. Accepted for publication. Link.
| | Typologie von Übersetzungsdivergenzen | L. Cyrus:
Building a resource for studying translation shifts. Proc. LREC 2006. Link.
|
Themenkomplex III: Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora
| Thema
| Materialien
|
| Mehrwortausdrücke | Sina Zarrieß and Jonas Kuhn:
Exploiting Translational Correspondences for Pattern-Independent MWE
Identification. In Proceedings of the 2009 Workshop on Multiword
Expressions. Link.
| | Lesarten | Mona T. Diab, Philip Resnik: An Unsupervised
Method for Word Sense Tagging using Parallel Corpora. Proceedings of
ACL 2002. Link.
| | Paraphrasen | Colin Bannard; Chris Callison-Burch
Paraphrasing with Bilingual Parallel Corpora. Proceedings of ACL 2005. Link.
|
Themenkomplex IV: Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora
| Thema
| Materialien
|
| Chunks, Parts of Speech | David Yarowsky; Grace Ngai:
Inducing Multilingual POS Taggers and NP Bracketers via Robust
Projection Across Aligned Corpora. Proceedings of NAACL 2001. Link.
| | Lesarten | Luisa Bentivogli and Emanuele Pianta, "Exploiting parallel texts in the creation of multilingual semantically annotated resources: the MultiSemCor Corpus". Natural Language Engineering, Special Issue on Parallel Texts. Link.
| | Zeitinformation | Spreyer, K. and Frank, A. (2008):
Projection-based Acquisition of a Temporal Labeller. Proceedings of
the 3rd International Joint Conference on Natural Language Processing. Link.
|
Themenkomplex V: Vergleichbare und nichtparallele Korpora
| Thema
| Materialien
|
| Paraphrasen aus vergleichbaren Korpora | Regina Barzilay;
Lillian Lee: Bootstrapping Lexical Choice via Multiple-Sequence
Alignment. Proceedings of EMNLP 2003. Link.
| | Übersetzungen in nichtparallelen Texten | Reinhard Rapp:
Identifying Word Translation in Non-Parallel Texts. Proceedings of ACL 1995. Link.
Pascale Fung and Percy Cheung: Mining Very-Non-Parallel Corpora: Parallel Sentence and Lexicon Extraction via Bootstrapping and EM. Proceedings of EMNLP 2004. Link.
|
|
|