Institut

Studium

Forschung


 

 
 

Dozent und Dozentin

  • Stefan Evert
  • Anke Lüdeling

Termin

Dienstags, 11:30 - 13:00, M12.21

Programm

24.04. Kursübersicht und Einführung in die Lexikostatistik.
(Types und Tokens, Zipf Ranking, seltene Ereignisse)
08.05. Lexikostatistik II
(Hapax legomena, Frequenzspektrum, Vocabulary Growth Curve (VCG))
15.05. Morphologische Produktivität
(Qualitativer Ansatz: -ös, -bar, -sam, klein, -chen, -lein, -tum)
22.05. Produktivität: quantitative Methoden
(Type/Token-Verhältnis, Vokabulargröße S, Produktivitätsindex P, VCG)
29.05. Bereinigung der Ausgangsdaten
(Auswertung der Hausaufgabe, manuelle vs. automatische Korrektur)
05.06. Computermorphologie
(Was muß ein Morphologiesystem können, damit morphologische Produktivität berechnet werden kann?)
Hausaufgabe: Automatische Korrektur eines Wortbildungsmusters mit dem DeKo-Automaten.
12.06. Statistische Modelle I
(Vergleichbarkeit, Interpolation und Extrapolation, LNRE-Verteilungen)
19.06. Statistische Modelle II
(LNRE-Modelle, Schätzen von Parametern)
26.06. Statistische Modelle III
Hausaufgabe: Anwendung der LNRE-Modelle auf die besprochenen Wortbildungsmuster (mit einem Tool von Harald Baayen).
03.07. Die Unabhängigkeitsannahme
(Verletzung der Unabhängigkeitsannahme, Dispersion, Anpassung der statistischen Modelle)
10.07. Information Retrieval I
(Grundbegriffe, (inverse) Dokumentfrequenz)
17.07. Information Retrieval II
(Anwendungen in der Lexikostatistik, Burstiness, Zusammenfassung)

Literatur

Baayen, R. Harald (1992): Quantitative aspects of morphological productivity. In: Yearbook of Morphology, 109-149.

Baayen, R. Harald (2001). Word Frequency Distributions. Kluwer, Dordrecht.

Baayen, R. Harald; Lieber, Rochelle (1991): Productivity and English derivation: a corpus-based study. In: Linguistics 29, 801-843.

Church, Kenneth W.; Gale, William A. (1995): Inverse Document Frequency: A Measure of Deviations from Poisson. In: Proceedings of the Third Workshop on Very Large Corpora, MIT, 121-130.

Church, Kenneth W.; Gale, William A. (1995b): Poisson Mixtures. In: Natural Language Engineering 1, 163-190.

Evert, Stefan; Lüdeling, Anke (2001): Measuring morphological productivity: Is automatic preprocessing sufficient? In: Proceedings of Corpus Linguistics 2001 (to appear).

Manning, Christopher D.; Schütze, Hinrich (1999): Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA.

Lüdeling, Anke; Evert, Stefan; Heid, Ulrich (2000): On measuring morphological productivity. In: Proceedings of KONVENS 2000 , 57-61.

Katz, Slava M (1996): Distribution of content words and phrases in in text and language modelling. In: Natural Language Engineering 2(1), 15-59.

Literatur wird im Seminar ausgegeben.