DGfS-CL Postersession 2007

 
   

Home

CFP

Poster

Organisation

DGfS-Links
          

Liste der angemeldeten Poster (alphabetisch, nach Autoren):



Abstracts:

Peter Adolphs
Korpuslinguistik, Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin
Automatic Acquisition of an Inflectional Lexicon for German from Raw Texts

The manual creation and maintenance of an inflectional lexicon is a strenuous task. Since large text corpora nowadays are easily available and inflectional rule systems are in general well understood, it seems feasible to acquire lexical data from raw texts, guided by our knowledge of inflection. I will present such an acquisition method for German. I have turned an existing hand-crafted morphological grammar, cast in finite-state technology (SMOR), into a hypothesiser for lexical entries. Running this hypothesiser on a text corpus yields a large number of lexical entry hypotheses that are ranked according to their validity with the help of a statistical model.



Heike Bieler, Stefanie Dipper, Michael Götze, Julia Ritz, Manfred Stede
Universität Potsdam
ASAP: eine Infrastruktur für reich annotierte Daten

In der Angewandten Computerlinguistik des Instituts für Linguistik an der Universität Potsdam wird eine Architektur und Infrastruktur für die Erstellung und Nutzung linguistischer Daten entwickelt. Die Infrastruktur ermöglicht es, sprachliche Daten sukzessive mit linguistischer Information anzureichern, beispielsweise können so zu einer vorhandenen syntaktischen Baumbank semantische oder pragmatische Annotationen hinzugefügt werden.

Die Idee dabei ist, dass reich annotierte Daten Voraussetzung für eine korpusbasierte Untersuchung vieler komplexer linguistischer Phänomene sind, die sich nur aus dem Zusammenspiel verschiedener Faktoren erklären lassen. Dabei bietet es sich an, existierende Korpora, deren Erstellung typischerweise sehr zeit- und ressourcenintensiv ist, weiter zu verwenden und mit geeigneter Information anzureichern. Diese Anreicherung kann durch manuelle Annotation oder auch durch automatische Analysetools erfolgen.

ASAP (Annotation Systems using ANNIS and PAULA) nutzt das generische, XML-basierte Austauschformat PAULA, um Korpus- und Tool-spezifische Formate in einem einheitlichen Format zu repräsentieren. Die linguistische Datenbank ANNIS dient dazu, die in PAULA repräsentierten Daten dem Nutzer zugänglich zu machen, zum einen durch eine mächtige Suchanfragesprache, zum anderen durch geeignete Visualisierung der Daten und ihrer Annotationen. ASAP wird derzeit in verschiedenen Projekten sowie in der Lehre eingesetzt. Ein Teil der Projekte nutzt v.a. manuell annotierte Daten. Dagegen kommen in SUMMaR, einem Projekt zur automatischen Textzusammenfassung, ausschließlich automatische Analysetools zum Einsatz, so z.B. bei der Analyse der Dokumentstruktur und der Berechnung von Satzrelevanzen. Unsere Präsentation schließt eine Demonstration von ASAP im Rahmen von ANNIS und SUMMaR ein.



Irene Cramer
Institut für deutsche Sprache und Literatur, Universität Dortmund
Casting the Annotation of an Extended Named Entity Classification as a Web-Study

Named Entity Recognition (and Classification) is, since MUC und CoNLL, a well-established task and a crucial technology for many applications in natural language processing such as Information Extraction and Question Answering. However, a linguistically motivated definition of what is a Named Entity is still unsettled and based on a heterogeneous group of linguistic phenomena: proper names (such as names of locations), number and time expressions (such as monetary amount, time, and date). Even category names are sometimes regarded as Named Entities. In this work, we propose a new definition that was based on findings in linguistics and cognitive sciences, which includes the name classes as proposed in MUC, but excludes time and number expressions. Moreover, it contains various additional proper name types in order to achieve a broader coverage and at the same time obtain a linguistically sound and homogenous classification. We have conducted a Web-study to investigate whether this new definition is intuitive and annotatable. Subjects with no linguistic background required were given 4 criteria to find relevant structures and a very small list of examples. Afterwards, the subjects were asked to annotate all relevant sections in 18 small text snippets taken from various Web-documents. Although the subjects were not trained (as typically done before the annotation process) and had a very short period to become acquainted with the task and the definition, the analysis of the inter-annotator agreement shows promising results. The thus annotated text snippets might also be useful as seed information in a semi-supervised entity recognition approach.



Florian Dömges, Katja Keßelmeier, Tibor Kiss, Antje Müller, Claudia Roch, Björn Wilmsmann
Sprachwissenschaftliches Institut, Ruhr-Universität Bochum
Extraktion und Klassifikation von Kandidatenpaaren zur Bestimmung von Idiomatizität und Produktivität von Präposition-Substantiv-Sequenzen

Sequenzen der Form Präposition+Substantiv werden in Grammatiken des Deutschen stiefmütterlich behandelt, obwohl sie eine Vielzahl von Besonderheiten aufweisen. Hierzu zählt insbesondere die Realisation von zählbaren Substantiven im Singular ohne Artikel, die nicht einfach durch Hinzufügen einer neuen NP-Regel erfasst werden können.

Anhand einer Korpus-Stichprobe (Korpusgröße 106 Millionen Wörter) basierend auf Sequenzen der Form unter+Substantiv soll untersucht werden, ob Präp+Subst-Sequenzen unproduktiv und idiomatisch sind. Zur Bestimmung der Produktivität verwenden wir das Verfahren von Baayen (2001), zur Bestimmung der Idiomatizität die log likelihood-ratio von Dunning (1993).

Eine vollautomatische Extraktion der Daten ist allerdings nicht möglich. Basierend auf einer rohen Extraktion mit dem Perl-Modul Text::NSP (Text-Ngram-Statistics-Package) wurden zunächst Kandidatenpaare mit einem Bootstrapping-Verfahren in Singular-Substantive, Plural-Substantive und Ausnahmen (Eigennamen etc.) identifiziert. In einem weiteren Schritt haben wir anhand verfügbarer Wörterbücher des Deutschen bestimmt, ob ein Singular-Substantiv überhaupt zählbar ist. Die resultierende Klassifikation bildet den Input für die o.g. statistischen Maße. Das vorläufige Resultat zeigt, dass Präp-Subst-Sequenzen weder unproduktiv noch (zum größeren Teil) idiomatisch sind und somit Eingang in die Grammatikschreibung finden müssen.



Stefan Evert
Institut für Kognitionswissenschaft, Universität Osnabrück
Room for Improvement? Upper Limits for Collocation Extraction with Statistical Association Measures.

Statistical association measures (such as mutual information, chi-squared, log-likelihood or t-score) have traditionally been used as a main source of evidence for the automatic extraction of lexical collocations from corpora (e.g. Smadja 1993, Daille 1996, Krenn 2000). In evaluation studies, such measures have achieved astonishingly good precision and recall even without the use of additional morpho-syntactic, semantic or distributional cues (e.g. Evert & Krenn 2001). It is still unclear, however, how to choose between the more than 60 different measures that have been suggested over the years (cf. Pecina & Schlesinger 2006). Evaluation studies are inconclusive in this respect, and none of the measures has emerged as an "optimal" general-purpose AM (even though log-likelihood is often used in such a way by the computational linguistics community).

Evert & Krenn (2001) observe a characteristic pattern with an entire group of association measures being very close to the best-performing one (such that result differences are not significant), and their impression is confirmed by Pecina & Schlesinger (2006). The group of best-performing measures is not the same for all data sets, though, and typically includes a range of measures with widely different mathematical background. In this poster, I present ongoing research that addresses the question whether these observations indicate a "sonic barrier", an upper limit on collocation extraction performance that cannot be surpassed using the information provided by statistical association measures only, or whether it would be possible to design more powerful measures with even better performance (despite the apparent failure of all previous attempts to do so).

References:
Daille, Béatrice (1996). Study and implementation of combined techniques for automatic extraction of terminology. In J. L. Klavans and P. Resnik (eds.), The Balancing Act, chapter 3, pages 49-66. MIT Press, Cambridge, MA.
Evert, Stefan and Krenn, Brigitte (2001). Methods for the qualitative evaluation of lexical association measures. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, pages 188-195, Toulouse, France.
Krenn, Brigitte (2000). The Usual Suspects: Data-Oriented Models for the Identification and Representation of Lexical Collocations, volume 7 of Saarbrücken Dissertations in Computational Linguistics and Language Technology. DFKI & Universität des Saarlandes, Saarbrücken, Germany.
Pecina, Pavel and Schlesinger, Pavel (2006). Combining association measures for collocation extraction. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL 2006), Poster Sessions, pages 651-658, Sydney, Australia.
Smadja, Frank (1993). Retrieving collocations from text: Xtract. Computational Linguistics, 19(1), 143-177.



Aurélien Giraud
Universität Bremen
New Visualisation Functionalities for Grammar Implementation Platforms

Tvizin is an application which communicates with the TRALE grammar implementation platform and provides new grammar writing and visualisation functionalities.

Tvizin allows the user to pre-define grammatical phenomena. Then, when a feature structure is displayed, this is done in a way which is sensitive to the phenomena represented in it. For instance, a feature structure will be displayed with some features hidden and others shown only when some phenomenon is "recognised" in it. As another example, some more information like a short explanatory text related to the "recognised" phenomenon can be automatically included beside the feature structure displayed.

Tvizin is cross-platform and currently only works locally, but it will partially be usable as a rich web application in a near future. I believe that it may both serve didactic purposes and ease the grammar writer work. It might also be used as a GUI for TRALE.



Jürgen Hermes, Stephan Schwiebert
Sprachliche Informationsverarbeitung, Institut für Linguistik, Universität zu Köln
Tesla - Ein Labor für Computerlinguisten

Das Text Engineering Software Laboratory (Tesla) stellt Computerlinguisten Infrastruktur und Werkzeuge für ihre Forschung zur Verfügung. Es tritt damit in Konkurrenz zu etablierten Systemen mit gleichem Anspruch, wie z. B. Gate und UIMA. Im Unterschied zu diesen bietet Tesla jedoch ein flexibleres Annotationsmodell, auf das einheitlich zugegriffen werden kann. Zudem ist es durch die Implementation auf Basis der JavaEE5 Technologie möglich, die Prozessierungsarbeit auf Rechnercluster zu verteilen, so dass voneinander unabhängige Komponenten automatisch parallel ausgeführt werden können, während die Hardwarenforderungen an Anwender-PCs gering bleiben. Durch dieses Design profitiert Tesla gleichzeitig von der aktuellen Tendenz, mehrere Cores in Desktop-PCs zu verwenden. Clientseitig ist Tesla in die IDE Eclipse integriert, was insbesondere beim Entwickeln, Testen und Debuggen neuer Komponenten große Vorteile bietet, da die bestehende Funktionalität von Eclipse zu einer computerlinguistischen IDE aufgewertet werden kann. Analyseergebnisse können mittels HTML dargestellt werden und sind damit direkt für die Veröffentlichung im WWW nutzbar.

Die Präsentation besteht aus einem einführenden Poster und einer Systemvorführung des aktuellen Entwicklungsstandes.



Ralf Klabunde
Sprachwissenschaftliches Institut, Ruhr-Universität Bochum
Generating Modals

I will present ongoing work on a natural language generation (NLG) system that generates recommendations and advices about course assignments within the B.A.-program of the Ruhr-Universität Bochum. Within the NLG system I will focus on the choice of modal verbs and modal particles. The idea is to combine insights from formal semantics and pragmatics into the meaning of modal expressions with requirements for their choice in NLG-systems in order to achieve a linguistically satisfying model of their choice.

I will show how the possible-worlds-approach to modality can be integrated into the content planning mechanism of the NLG-system. The semantic requirements are used as a filter for the choice of modal expressions that express the respective modal subcategories. Since an unambiguous mapping from modality to modal expressions can only be obtained if pragmatic criteria are taken into account as well, I will outline the function of modal expressions as speech act markers, and the computational realization of this function.



Stefan Müller
Theoretische Linguistik/Computerlinguistik, Universität Bremen
The Grammix CD Rom: All You Need for Grammar Development

Die Grammix-CD ist ein CD-Rom, die das Grammatikentwicklungssystem Trale sowie Software zum systematischen Testen von Grammatiken ([incr TSDB()]) und zur Visualisierung von Analyseergebnissen enthält. Zu den Visualisierungstools gehören Grisu (Visualisierung von Merkmalstrukturen), ein Chart-Display (Visualisierung des Parseprozesses) und Utool (Skopusberechnung und Visualisierung unterspezifizierte semantischer Repräsentationen).

Die CD enthält Lehrgrammatiken, die den einzelnen Kapiteln eines gerade fertiggestellten HPSG-Lehrbuchs entsprechen. Außerdem befinden sich das Babel-System und eine Beispiel-Grammatik für das Chinesische auf der CD.

Die CD ist bootbar, alle Software kann direkt ohne Installation benutzt werden. Die CD eignet sich somit sowohl für die Lehre als auch zum Selbststudium.



Wiebke Petersen
Abteilung Computerlinguistik, Institut für Sprache und Information, Heinrich-Heine-Universität
FCAtype - a System for Type Signature Induction

Type signatures are common in modern linguistic theories. Their construction and maintenance is intricate, and therefore, an automatic induction method is desirable. In the present paper we present FCAtype, a module of our system FCAling, that automatically induces type signatures from a set of untyped feature structures. It is based on the strict set-theoretical point of view of Formal Concept Analysis.

Decomposition contexts and lattices play the key role in the induction process. A decomposition context is a formal context which encodes all structural information of the input structures. The corresponding formal concept lattice, the decomposition lattice, serves us as an initial type signature. This signature can be folded up to result in a compact type signature corresponding to the input structures.



Christof Rumpf
Abteilung Computerlinguistik, Institut für Sprache und Information, Heinrich-Heine-Universität
Ein Framework zur automatischen Klassifikation von Begriffstypen

Nomen können in Texten nach den Merkmalen funktional und relational klassifiziert werden. Mit 'funktional' ist inhärente Eindeutigkeit im Hinblick auf die Referenz gemeint, während 'relational' sich auf die Stelligkeit, bzw. das Vorhandensein von Possesorargumenten bezieht. Eigennamen sind z.B. funktional und einstellig, sortale Nomen nicht funktional und einstellig, Messgrössen wie 'Temperatur von X' funktional und mehrstellig. Wir stellen ein Framework vor, in dem diese Begriffstypen im Rahmen eines Maximum Entropie Modells aufgrund morphosyntaktischer Kontextmerkmale wie Determiniertheit oder Possession automatisch klassifiziert werden. Das Framework ist Bestandteil des Projekts 'Automatische Klassifikation von Nomen nach Begriffstyp' der DFG Forschergruppe FOR 600 'Funktionalbegriffe und Frames'.



Heike Zinsmeister
Abteilung Computerlinguistik, Seminar für Sprachwissenschaft, Universität Tübingen
Parsing of Coordinate Structures - a Preliminary Study

We present work within a larger project that aims at increasing parsing accuracy of a context-free probabilistic parser by focusing on the treatment of coordinate structures. In our preliminary study we used the BitPar parser (Schmid 2004) and a context-free grammar that was derived from the Tübingen Treebank of written German (TüBa-D/Z), employing a transformed representation of the treebank which comprises enriched local trees (different kinds of parametrized categories), Markovization of coordinate structures and other modifications (Versley 2005). The study shows that the corpus-driven probabilistic parser produces significantly poorer results on coordinate structures than on sentences without coordination. However, in many cases the parser could provide correct analyses if more than only the most probable parses were considered. An analysis of sets of 20-best and 50-best parses shows that a correct re-ranking of the lists would considerably improve the accuracy scores. A reranking tool assigns each parse in the list a score by validating it against a given set of weighted features. We outline an experiment in which we will compare two rerankers that are based on different approaches to determining those features: a 'black-box' approach and an approach which is based on hand-crafted feature templates and allows for special features for modelling coordination.