|
Liste der angemeldeten Poster (alphabetisch, nach Autoren):
Abstracts:Peter AdolphsKorpuslinguistik, Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin Automatic Acquisition of an Inflectional Lexicon for German from Raw Texts The manual creation and maintenance of an inflectional lexicon is a strenuous task. Since large text corpora nowadays are easily available and inflectional rule systems are in general well understood, it seems feasible to acquire lexical data from raw texts, guided by our knowledge of inflection. I will present such an acquisition method for German. I have turned an existing hand-crafted morphological grammar, cast in finite-state technology (SMOR), into a hypothesiser for lexical entries. Running this hypothesiser on a text corpus yields a large number of lexical entry hypotheses that are ranked according to their validity with the help of a statistical model. Heike Bieler, Stefanie Dipper, Michael Götze, Julia Ritz, Manfred Stede Universität Potsdam ASAP: eine Infrastruktur für reich annotierte Daten In der Angewandten Computerlinguistik des Instituts für Linguistik an der Universität Potsdam wird eine Architektur und Infrastruktur für die Erstellung und Nutzung linguistischer Daten entwickelt. Die Infrastruktur ermöglicht es, sprachliche Daten sukzessive mit linguistischer Information anzureichern, beispielsweise können so zu einer vorhandenen syntaktischen Baumbank semantische oder pragmatische Annotationen hinzugefügt werden. Die Idee dabei ist, dass reich annotierte Daten Voraussetzung für eine korpusbasierte Untersuchung vieler komplexer linguistischer Phänomene sind, die sich nur aus dem Zusammenspiel verschiedener Faktoren erklären lassen. Dabei bietet es sich an, existierende Korpora, deren Erstellung typischerweise sehr zeit- und ressourcenintensiv ist, weiter zu verwenden und mit geeigneter Information anzureichern. Diese Anreicherung kann durch manuelle Annotation oder auch durch automatische Analysetools erfolgen.
ASAP (Annotation Systems using ANNIS and PAULA) nutzt
das generische, XML-basierte Austauschformat PAULA, um
Korpus- und Tool-spezifische Formate in einem
einheitlichen Format zu repräsentieren. Die
linguistische Datenbank ANNIS dient dazu, die in PAULA
repräsentierten Daten dem Nutzer zugänglich zu machen,
zum einen durch eine mächtige Suchanfragesprache, zum
anderen durch geeignete Visualisierung der Daten und
ihrer Annotationen. ASAP wird derzeit in verschiedenen
Projekten sowie in der Lehre eingesetzt. Ein Teil der
Projekte nutzt v.a. manuell annotierte Daten. Dagegen
kommen in SUMMaR, einem Projekt zur automatischen
Textzusammenfassung, ausschließlich automatische
Analysetools zum Einsatz, so z.B. bei der Analyse der
Dokumentstruktur und der Berechnung von
Satzrelevanzen. Unsere Präsentation schließt eine
Demonstration von ASAP im Rahmen von ANNIS und SUMMaR
ein.
Irene Cramer Institut für deutsche Sprache und Literatur, Universität Dortmund Casting the Annotation of an Extended Named Entity Classification as a Web-Study
Named Entity Recognition (and Classification) is,
since MUC und CoNLL, a well-established task and a
crucial technology for many applications in natural
language processing such as Information Extraction and
Question Answering. However, a linguistically motivated definition of
what is a Named Entity is still unsettled and based on a heterogeneous
group of linguistic phenomena: proper names (such as names of
locations), number and time expressions (such as monetary amount,
time, and date). Even category names are sometimes regarded as Named
Entities. In this work, we propose a new definition that was based on
findings in linguistics and cognitive sciences, which includes the
name classes as proposed in MUC, but excludes time and number
expressions. Moreover, it contains various additional proper name
types in order to achieve a broader coverage and at the same time
obtain a linguistically sound and homogenous classification. We have
conducted a Web-study to investigate whether this new definition is
intuitive and annotatable. Subjects with no linguistic background
required were given 4 criteria to find relevant structures and a very
small list of examples. Afterwards, the subjects were asked to
annotate all relevant sections in 18 small text snippets taken from
various Web-documents. Although the subjects were not trained (as
typically done before the annotation process) and had a very short
period to become acquainted with the task and the definition, the
analysis of the inter-annotator agreement shows promising results. The
thus annotated text snippets might also be useful as seed information
in a semi-supervised entity recognition approach.
Florian Dömges, Katja Keßelmeier, Tibor Kiss, Antje Müller, Claudia Roch, Björn Wilmsmann Sprachwissenschaftliches Institut, Ruhr-Universität Bochum Extraktion und Klassifikation von Kandidatenpaaren zur Bestimmung von Idiomatizität und Produktivität von Präposition-Substantiv-Sequenzen Sequenzen der Form Präposition+Substantiv werden in Grammatiken des Deutschen stiefmütterlich behandelt, obwohl sie eine Vielzahl von Besonderheiten aufweisen. Hierzu zählt insbesondere die Realisation von zählbaren Substantiven im Singular ohne Artikel, die nicht einfach durch Hinzufügen einer neuen NP-Regel erfasst werden können. Anhand einer Korpus-Stichprobe (Korpusgröße 106 Millionen Wörter) basierend auf Sequenzen der Form unter+Substantiv soll untersucht werden, ob Präp+Subst-Sequenzen unproduktiv und idiomatisch sind. Zur Bestimmung der Produktivität verwenden wir das Verfahren von Baayen (2001), zur Bestimmung der Idiomatizität die log likelihood-ratio von Dunning (1993).
Eine vollautomatische Extraktion der Daten ist
allerdings nicht möglich. Basierend auf einer rohen
Extraktion mit dem Perl-Modul Text::NSP
(Text-Ngram-Statistics-Package) wurden zunächst
Kandidatenpaare mit einem Bootstrapping-Verfahren in
Singular-Substantive, Plural-Substantive und Ausnahmen
(Eigennamen etc.) identifiziert. In einem weiteren
Schritt haben wir anhand verfügbarer Wörterbücher des
Deutschen bestimmt, ob ein Singular-Substantiv
überhaupt zählbar ist. Die resultierende
Klassifikation bildet den Input für die
o.g. statistischen Maße. Das vorläufige Resultat
zeigt, dass Präp-Subst-Sequenzen weder unproduktiv
noch (zum größeren Teil) idiomatisch sind und somit
Eingang in die Grammatikschreibung finden müssen.
Stefan Evert Institut für Kognitionswissenschaft, Universität Osnabrück Room for Improvement? Upper Limits for Collocation Extraction with Statistical Association Measures. Statistical association measures (such as mutual information, chi-squared, log-likelihood or t-score) have traditionally been used as a main source of evidence for the automatic extraction of lexical collocations from corpora (e.g. Smadja 1993, Daille 1996, Krenn 2000). In evaluation studies, such measures have achieved astonishingly good precision and recall even without the use of additional morpho-syntactic, semantic or distributional cues (e.g. Evert & Krenn 2001). It is still unclear, however, how to choose between the more than 60 different measures that have been suggested over the years (cf. Pecina & Schlesinger 2006). Evaluation studies are inconclusive in this respect, and none of the measures has emerged as an "optimal" general-purpose AM (even though log-likelihood is often used in such a way by the computational linguistics community). Evert & Krenn (2001) observe a characteristic pattern with an entire group of association measures being very close to the best-performing one (such that result differences are not significant), and their impression is confirmed by Pecina & Schlesinger (2006). The group of best-performing measures is not the same for all data sets, though, and typically includes a range of measures with widely different mathematical background. In this poster, I present ongoing research that addresses the question whether these observations indicate a "sonic barrier", an upper limit on collocation extraction performance that cannot be surpassed using the information provided by statistical association measures only, or whether it would be possible to design more powerful measures with even better performance (despite the apparent failure of all previous attempts to do so).
References: Aurélien Giraud Universität Bremen New Visualisation Functionalities for Grammar Implementation Platforms Tvizin is an application which communicates with the TRALE grammar implementation platform and provides new grammar writing and visualisation functionalities. Tvizin allows the user to pre-define grammatical phenomena. Then, when a feature structure is displayed, this is done in a way which is sensitive to the phenomena represented in it. For instance, a feature structure will be displayed with some features hidden and others shown only when some phenomenon is "recognised" in it. As another example, some more information like a short explanatory text related to the "recognised" phenomenon can be automatically included beside the feature structure displayed.
Tvizin is cross-platform and currently only works
locally, but it will partially be usable as a rich web
application in a near future. I believe that it may
both serve didactic purposes and ease the grammar
writer work. It might also be used as a GUI for TRALE.
Jürgen Hermes, Stephan Schwiebert Sprachliche Informationsverarbeitung, Institut für Linguistik, Universität zu Köln Tesla - Ein Labor für Computerlinguisten Das Text Engineering Software Laboratory (Tesla) stellt Computerlinguisten Infrastruktur und Werkzeuge für ihre Forschung zur Verfügung. Es tritt damit in Konkurrenz zu etablierten Systemen mit gleichem Anspruch, wie z. B. Gate und UIMA. Im Unterschied zu diesen bietet Tesla jedoch ein flexibleres Annotationsmodell, auf das einheitlich zugegriffen werden kann. Zudem ist es durch die Implementation auf Basis der JavaEE5 Technologie möglich, die Prozessierungsarbeit auf Rechnercluster zu verteilen, so dass voneinander unabhängige Komponenten automatisch parallel ausgeführt werden können, während die Hardwarenforderungen an Anwender-PCs gering bleiben. Durch dieses Design profitiert Tesla gleichzeitig von der aktuellen Tendenz, mehrere Cores in Desktop-PCs zu verwenden. Clientseitig ist Tesla in die IDE Eclipse integriert, was insbesondere beim Entwickeln, Testen und Debuggen neuer Komponenten große Vorteile bietet, da die bestehende Funktionalität von Eclipse zu einer computerlinguistischen IDE aufgewertet werden kann. Analyseergebnisse können mittels HTML dargestellt werden und sind damit direkt für die Veröffentlichung im WWW nutzbar.
Die Präsentation besteht aus einem einführenden Poster
und einer Systemvorführung des aktuellen
Entwicklungsstandes.
Ralf Klabunde Sprachwissenschaftliches Institut, Ruhr-Universität Bochum Generating Modals I will present ongoing work on a natural language generation (NLG) system that generates recommendations and advices about course assignments within the B.A.-program of the Ruhr-Universität Bochum. Within the NLG system I will focus on the choice of modal verbs and modal particles. The idea is to combine insights from formal semantics and pragmatics into the meaning of modal expressions with requirements for their choice in NLG-systems in order to achieve a linguistically satisfying model of their choice.
I will show how the possible-worlds-approach to
modality can be integrated into the content planning
mechanism of the NLG-system. The semantic requirements
are used as a filter for the choice of modal
expressions that express the respective modal
subcategories. Since an unambiguous mapping from
modality to modal expressions can only be obtained if
pragmatic criteria are taken into account as well, I
will outline the function of modal expressions as
speech act markers, and the computational realization
of this function.
Stefan Müller Theoretische Linguistik/Computerlinguistik, Universität Bremen The Grammix CD Rom: All You Need for Grammar Development Die Grammix-CD ist ein CD-Rom, die das Grammatikentwicklungssystem Trale sowie Software zum systematischen Testen von Grammatiken ([incr TSDB()]) und zur Visualisierung von Analyseergebnissen enthält. Zu den Visualisierungstools gehören Grisu (Visualisierung von Merkmalstrukturen), ein Chart-Display (Visualisierung des Parseprozesses) und Utool (Skopusberechnung und Visualisierung unterspezifizierte semantischer Repräsentationen). Die CD enthält Lehrgrammatiken, die den einzelnen Kapiteln eines gerade fertiggestellten HPSG-Lehrbuchs entsprechen. Außerdem befinden sich das Babel-System und eine Beispiel-Grammatik für das Chinesische auf der CD.
Die CD ist bootbar, alle Software kann direkt ohne
Installation benutzt werden. Die CD eignet sich somit
sowohl für die Lehre als auch zum Selbststudium.
Wiebke Petersen Abteilung Computerlinguistik, Institut für Sprache und Information, Heinrich-Heine-Universität FCAtype - a System for Type Signature Induction Type signatures are common in modern linguistic theories. Their construction and maintenance is intricate, and therefore, an automatic induction method is desirable. In the present paper we present FCAtype, a module of our system FCAling, that automatically induces type signatures from a set of untyped feature structures. It is based on the strict set-theoretical point of view of Formal Concept Analysis.
Decomposition contexts and lattices play the key role
in the induction process. A decomposition context is a
formal context which encodes all structural
information of the input structures. The corresponding
formal concept lattice, the decomposition lattice,
serves us as an initial type signature. This signature
can be folded up to result in a compact type signature
corresponding to the input structures.
Christof Rumpf Abteilung Computerlinguistik, Institut für Sprache und Information, Heinrich-Heine-Universität Ein Framework zur automatischen Klassifikation von Begriffstypen
Nomen können in Texten nach den Merkmalen funktional
und relational klassifiziert werden. Mit 'funktional'
ist inhärente Eindeutigkeit im Hinblick auf die
Referenz gemeint, während 'relational' sich auf die
Stelligkeit, bzw. das Vorhandensein von
Possesorargumenten bezieht. Eigennamen sind
z.B. funktional und einstellig, sortale Nomen nicht
funktional und einstellig, Messgrössen wie 'Temperatur
von X' funktional und mehrstellig. Wir stellen ein
Framework vor, in dem diese Begriffstypen im Rahmen
eines Maximum Entropie Modells aufgrund
morphosyntaktischer Kontextmerkmale wie
Determiniertheit oder Possession automatisch
klassifiziert werden. Das Framework ist Bestandteil
des Projekts 'Automatische Klassifikation von Nomen
nach Begriffstyp' der DFG Forschergruppe FOR 600
'Funktionalbegriffe und Frames'.
Heike Zinsmeister Abteilung Computerlinguistik, Seminar für Sprachwissenschaft, Universität Tübingen Parsing of Coordinate Structures - a Preliminary Study
We present work within a larger project that aims at
increasing parsing accuracy of a context-free
probabilistic parser by focusing on the treatment of
coordinate structures. In our preliminary study we
used the BitPar parser (Schmid 2004) and a
context-free grammar that was derived from the
Tübingen Treebank of written German (TüBa-D/Z),
employing a transformed representation of the treebank
which comprises enriched local trees (different kinds
of parametrized categories), Markovization of
coordinate structures and other modifications (Versley
2005). The study shows that the corpus-driven
probabilistic parser produces significantly poorer
results on coordinate structures than on sentences
without coordination. However, in many cases the
parser could provide correct analyses if more than
only the most probable parses were considered. An
analysis of sets of 20-best and 50-best parses shows
that a correct re-ranking of the lists would
considerably improve the accuracy scores. A reranking
tool assigns each parse in the list a score by
validating it against a given set of weighted
features. We outline an experiment in which we will
compare two rerankers that are based on different
approaches to determining those features: a
'black-box' approach and an approach which is based on
hand-crafted feature templates and allows for special
features for modelling coordination.
|