 |
Dozent und Dozentin
- Stefan Evert
- Anke Lüdeling
Termin
Dienstags, 11:30 - 13:00, M12.21
Programm
| 24.04. |
Kursübersicht und Einführung in die Lexikostatistik.
(Types und Tokens, Zipf Ranking, seltene Ereignisse)
Folien:
Überblick (.ps.gz, .pdf),
Einführung in die Lexikostatistik (.ps.gz, .pdf)
|
| 08.05. |
Lexikostatistik II
(Hapax legomena, Frequenzspektrum, Vocabulary Growth Curve (VCG))
Folien:
Grundlagen der Statistik (.ps.gz, .pdf)
|
| 15.05. |
Morphologische Produktivität
(Qualitativer Ansatz: -ös, -bar, -sam, klein, -chen, -lein, -tum)
Folien:
Produktivität (.ps.gz, .pdf)
|
| 22.05. |
Produktivität: quantitative Methoden
(Type/Token-Verhältnis, Vokabulargröße S, Produktivitätsindex P, VCG)
Hausaufgabe:
Berechnen der Kenngrößen für die am 15.05. besprochenen Wortbildungsmuster.
Folien:
Produktivität 2 (.ps.gz, .pdf)
|
| 29.05. |
Bereinigung der Ausgangsdaten
(Auswertung der Hausaufgabe, manuelle vs. automatische Korrektur)
|
| 05.06. |
Computermorphologie
(Was muß ein Morphologiesystem können, damit morphologische Produktivität berechnet werden kann?)
Hausaufgabe: Automatische Korrektur eines Wortbildungsmusters mit dem DeKo-Automaten.
|
| 12.06. |
Statistische Modelle I
(Vergleichbarkeit, Interpolation und Extrapolation, LNRE-Verteilungen)
|
| 19.06. |
Statistische Modelle II
(LNRE-Modelle, Schätzen von Parametern)
|
| 26.06. |
Statistische Modelle III
Hausaufgabe:
Anwendung der LNRE-Modelle auf die besprochenen Wortbildungsmuster
(mit einem Tool von Harald Baayen).
|
| 03.07. |
Die Unabhängigkeitsannahme
(Verletzung der Unabhängigkeitsannahme, Dispersion, Anpassung der statistischen Modelle)
|
| 10.07. |
Information Retrieval I
(Grundbegriffe, (inverse) Dokumentfrequenz)
|
| 17.07. |
Information Retrieval II
(Anwendungen in der Lexikostatistik, Burstiness, Zusammenfassung)
|
Literatur
Baayen, R. Harald (1992): Quantitative aspects of morphological
productivity. In: Yearbook of Morphology, 109-149.
Baayen, R. Harald (2001). Word Frequency Distributions.
Kluwer, Dordrecht.
Baayen, R. Harald; Lieber, Rochelle (1991): Productivity and
English derivation: a corpus-based study. In: Linguistics 29,
801-843.
Church, Kenneth W.; Gale, William A. (1995): Inverse Document
Frequency: A Measure of Deviations from Poisson. In: Proceedings
of the Third Workshop on Very Large Corpora, MIT, 121-130.
Church, Kenneth W.; Gale, William A. (1995b): Poisson Mixtures.
In: Natural Language Engineering 1, 163-190.
Evert, Stefan; Lüdeling, Anke (2001): Measuring morphological
productivity: Is automatic preprocessing sufficient? In:
Proceedings of Corpus Linguistics 2001 (to appear).
Manning, Christopher D.; Schütze, Hinrich (1999): Foundations
of Statistical Natural Language Processing. MIT Press, Cambridge,
MA.
Lüdeling, Anke; Evert, Stefan; Heid, Ulrich (2000): On measuring
morphological productivity. In: Proceedings of KONVENS 2000 ,
57-61.
Katz, Slava M (1996): Distribution of content words and phrases in
in text and language modelling. In: Natural Language Engineering
2(1), 15-59.
Literatur wird im Seminar ausgegeben.
|