Institut

Studium

Forschung


 

Projekt-Übersicht

Projekttitel SEAT: Strukturierte Emotionsanalyse in Text in verschiedenen Domänen
Laufzeit Januar 2018 – Dezember 2020
PI Roman Klinger

Kurzbeschreibung

Emotionsanalyse in der maschinellen Verarbeitung von Sprache zielt auf die Assoziation von Text mit Emotionen ab. Diese Emotionen sind zum Beispiel Angst, Wut, Freude, Überraschung, Ekel oder Trauer. Dieser Ansatz geht über die automatische Stimmungsanalyse (Sentiment Analysis) hinaus und liefert in der Anwendung auf soziale Medien, fiktionale Geschichten oder Nachrichten einen qualitativen Mehrwert.

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel Oceanic Exchanges (OcEx): Tracing Global Information Networks in Historical Newspaper Repositories, 1840-1914
Laufzeit Oktober 2017 - September 2019
PI Sebastian Padó (Institut für Maschinelle Sprachverarbeitung), Steffen Koch (Institut für Visualisierung und Interaktive Systeme), Mark Priewe (Institut für Literaturwissenschaft: Anglistik / Amerikanistik)

Kurzbeschreibung

Die drastische Zunahme von Zeitungen im 19. Jahrhundert erschuf eine globale Kultur von ergiebiger und schnell zirkulierender Information. Die Bedeutung von Zeitungen wird in wissenschaftlichen Studien weitestgehend auf Metropolebene und auf nationalen Sprache ausgeführt, während mittels Digitalisierung lokale Zeitungen in einen nationalen Kontext positioniert werden können. Im "Oceanic Exchanges" Projekt werden Ansätze aus der computerlinguistischen Forschung eingesetzt, um Muster für den Informationsfluss über nationale und sprachliche Grenzen hinweg zu untersuchen. Mittels computerunterstützten Analysen wird der globalen Zusammen digitaler Zeitungscorpora aus dem 19. Jahrhundert veranschaulicht. OcEx deckt auf, wie internationale Ereignisse durch Nachrichten, Ratschläge, Vignetten, Populärwissenschaften, Poesie, Fiktion und vieles mehr verarbeitet werden und analysiert werden können. Durch die Verknüpfung der Forschung mit digitalen digitalen Zeitungssammlungen bietet OcEx weiterhin ein Modell für Datenverwalter, die umfangreiche geisteswissenschaftliche Daten verwalten.

Die offizielle Homepage befindet sich hier

Geldgeber Transatlantic Partnership for Social Sciences and Humanities 2016 Digging Into Data Challenge, Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel QuaDramA - Quantitative Drama Analytics
Laufzeit April 2017 - March 2020
PI Nils Reiter (IMS), Marcus Willand (Institute for Literary Studies)

Kurzbeschreibung

In QuaDramA erarbeiten wir die Möglichkeiten der skalierbaren Analyse dramatischer Texte, wobei wir insbesondere verschiedene Aspekte der dramatischen Figur fokussieren. Unser Korpus besteht aus über 600 digitalisierten deutschsprachigen Dramen, insbesondere aus der Zeit zwischen 1740 und 1920. Auf diesem Korpus verbinden wir Strukturanalysen mit der computergestützten Inhaltsanalyse dramatischer Figurenrede. Diese Verbindung beider Analyseformen erlaubt es uns, computerlinguistische tools der natürlichen Sprachverarbeitung (NLP) für die spezifische Domäne dramatischer Texte zu adaptieren. Struktur und Inhalt auf diese Weise analytisch zu integrieren ist nicht trivial, da sehr unterschiedliche Informationstypen in Abhängigkeit von einander systematisch analysiert werden müssen, um für eine differenzierte Textinterpretation fruchtbar gemacht werden zu können. Die empirischen Funde der Analysen werden neben der Einzeltext-Interpretation auch literaturhistorisch eingebunden. 

Webseite des Projekts

Geldgeber VolkswagenStiftung
 
Projekttitel CRETA - Center for Reflected Text Analytics
Laufzeit Januar 2016 - Dezember 2018
PI Jonas Kuhn, Sebastian Padó (Institut für Maschinelle Sprachverarbeitung), Manuel Braun (Institut für Literaturwissenschaft / Germanistische Mediävistik), Thomas Ertl (Institut für Visualisierung und Interaktive Systeme), Sabine Holtz (Historisches Institut / Landesgeschichte), Cathleen Kantner (Institut für Sozialwissenschaften / Internationale Beziehungen und Europäische Integration), Catrin Misselhorn (Institut für Philosophie / Wissenschaftstheorie und Technikphilosophie), Sandra Richter (Institut für Literaturwissenschaft / Neuere Deutsche Literatur I), Achim Stein (Institut für Linguistik / Romanistik), Claus Zittel (Stuttgart Research Centre for Text Studies)

Kurzbeschreibung

Das BMBF-geförderte "Centrum für reflektierte Textanalyse" (CRETA) konzentriert sich auf die Entwicklung von technischen Methoden und allgemeinen Arbeitsablauf-Methoden zur Textanalyse im Bereich der Digital Humanities. Die Methoden sollen fachübergreifend für textanalytischen Fragestellungen aus der Literatur-, Sprach-, Geschichts- und Sozialwissenschaft sowie Philosophie erarbeitet und eingesetzt werden. Dabei sollen die Methoden in ihrer Funktionsweise nachvollziehbar gemacht werden, um im Zusammenspiel mit Datenvisualisierung und Computerlinguistik durch die Anwenderinnen und Anwender reflektiert eingesetzt werden zu können.

Geldgeber Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF)
 
Projekttitel KABI: Confidence Estimation for Biomedical Information Extraction
Laufzeit Januar 2016 - Dezember 2017
PI Roman Klinger

Kurzbeschreibung

In den Lebenswissenschaften werden viele Informationen nur in Form von Freitext in wissenschaftlichen Publikationen zur Verfügung gestellt. Automatische Verfahren, welche solches Wissen extrahieren und in strukturierter Form Benutzern von Datenbanken zur Verfügung stellen, stehen allerdings häufig vor einem Dilemma. Gerade wenn potentiell neue Informationen in einem Text erkannt wurden, ist zunächst unklar, ob die Information tatsächlich korrekt ist, oder falsch extrahiert wurde, zum Beispiel weil der Text ungewöhnlich formuliert ist. In dem Projekt werden Verfahren entwickelt, welche helfen, die Zuverlässigkeit von extrahierten Informationen in biomedinizischen Publikationen besser abzuschätzen.

Geldgeber Ministerium für Wissenschaft, Forschung und Kunst in Baden-Württemberg und Universität Stuttgart (Programm: RiSC – Research Seed Capital)
 
Projekttitel Debate Explorer
Laufzeit Januar 2016 - August 2016
PI Jonas Kuhn

Kurzbeschreibung

Mit dem DebateExplorer soll eine technische Lösung geschaffen werden, die es investigativen Journalist(inn)en erlaubt, mit einfach zu handhabenden Filtern enorm umfängliche, heterogene und in die Vergangenheit reichende Textbestände (Parlamentsberichte, Ausschussprotokolle, Antworten auf parlamentarische Anfragen, Gesetzesentwürfe etc.) für ihre individuellen Zwecke auszuwerten.

Geldgeber Volkswagen Stiftung
 
Projekttitel RePlay-DH
Laufzeit November 2015 - April 2018
PI Jonas Kuhn (IMS Stuttgart), Helge Steenweg (UB Stuttgart), Stefan Wesner (KIZ Ulm)

Kurzbeschreibung

In dem Projekt geht es um die Bereitstellung eines Werkzeugs für die Fachcommunity Digital Humanities. Bei der Handhabung von Forschungsdaten soll sowohl eine Nachnutzung der Daten als auch das Nachvollziehen von Änderungen (“Replay”), ohne erheblichen Mehraufwand möglich sein.

Geldgeber Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg (MWK)
 
Projekttitel ePoetics
Laufzeit März 2013 bis Februrar 2016
PI Jonas Kuhn

Kurzbeschreibung

Korpuserschließung und Visualisierung deutschsprachiger Poetiken (1770-1960) für den „Algorithmic Criticism"

Geldgeber Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF)
 
Projekttitel eIdentity
Laufzeit Mai 2012 bis April 2015
PI Jonas Kuhn

Kurzbeschreibung

Multiple kollektive Identitäten in internationalen Debatten um Krieg und Frieden seit dem Ende des Kalten Krieges. Sprachtechnologische Werkzeuge und Methoden für die Analyse mehrsprachiger Textmengen in den Sozialwissenschaften.

Geldgeber Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF)
 
Projekttitel Distributionelle Ansätze für die Modellierung von semantischen Beziehungen
Laufzeit November 2011 - Januar 2017
PI Sabine Schulte im Walde

Kurzbeschreibung

Das Projekt erforscht im Rahmen eines interdisziplinären Ansatzes das Potential und die Grenzen distributionellen Wissens bezüglich der Modellierung von semantischen Beziehungen zwischen Wortbedeutungen.

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel Kobalt-DaF
Laufzeit September 2011 - Dezember 2014
PI Heike Zinsmeister

Kurzbeschreibung

Ein wissenschaftliches Netzwerk zur korpusbasierte Analyse von Lernertexten für Deutsch als Fremdsprache.

Projekt-Homepage: http://www.kobalt-daf.de

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel CLARIN-D
Laufzeit Mai 2011 - September 2016
PI Jonas Kuhn

Kurzbeschreibung

Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften.

Geldgeber Bundesministerium für Bildung und Forschung (BMBF)
 
Projekttitel Baumübersetzer in der maschinellen Übersetzung
Laufzeit Februar 2011 - Januar 2017
PI Andreas Maletti

Kurzbeschreibung

In diesem Projekt sollen einerseits ein zufriedenstellendes Übersetzungsmodell für syntax-basierte Übersetzer und die grundlegenden Algorithmen für dessen Verwendung entwickelt werden. Dieses Modell soll auch in einem frei verfügbaren und wettbewerbsfähigen Toolkit implementiert werden. Andererseits soll die vorhandene Technologie für maschinelle Übersetzer an syntax-basierte Übersetzer angepasst werden. Dies erfordert die Entwicklung von syntax-basierten Qualitätsmetriken, Korrespondenzen (alignments) und Eigenschaften (features). Um die Anwendbarkeit unserer Resultate zu demonstrieren, soll weiterhin ein syntax-basiertes Übersetzungssystem auf Basis unseres Toolkits entwickelt werden.

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel Prosodische Phrasierung in der auditorischen und visuellen Satzverarbeitung
Laufzeit April 2010 - Oktober 2014
PI Dr. Petra Augurzky, University of Tübingen

Kurzbeschreibung

The project investigates the status of prosodic phrasing in auditory and visual sentence processing. Prosodic phrase boundaries can influence the syntactic structure as well as the processing of argument status. The aim of the project is to identify the exact timing and functional make-up of prosody processing by measuring event-related potentials (ERPs). As a starting point for these experiments, behavioral production and perception studies willl determine the typical prosodic realization for various structures.

DFG Grant to G. Dogil, A. Alexiadou & B. Kotchubey

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel Morphosyntaktische Modelle für statistische maschinelle Übersetzung
Laufzeit Oktober 2009 - September 2012 (1. Phase)
PI Alexander Fraser, Hinrich Schütze

Kurzbeschreibung

Im beantragten Projekt sollen Fortschritte in der automatischen linguistischen Analyse von Syntax und Morphologie für einen neuen Ansatz der statistischen MÜ genutzt werden. Der Abhängigkeit von Morphologie, Syntax und übersetzung soll Rechnung getragen und damit übersetzungsmodelle und Suchalgorithmen ermöglicht werden, die die übersetzungsqualität für morphologisch reiche Sprachen entscheidend verbessern.

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel Sonderforschungsbereich 732 "Inkrementelle Spezifikation im Kontext"
Laufzeit 2006-2018

Kurzbeschreibung

The scientific goal of the SFB 732 is to achieve a better understanding of the mechanisms that lead to ambiguity control/disambiguation as well as the enrichment of missing/incomplete information and to develop methods that are able to fully describe these mechanisms. The basic hypothesis in the SFB is that such processes generally involve specification of an underspecified input. Our research involves statistical, rule-based, comparative and corpus-based methods, to which we will add  experimental methods in the second phase of funding.

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel Phonetic Perceptual Reference Space for Prosodic Phonological Categories
Laufzeit Juli 2006 - Juni 2009
PI Bernd Möbius, Grzegorz Dogil

Kurzbeschreibung

The research program of the project is situated at the interface between phonology and phonetics. Its principal goal is to define the perceptual reference space for prosodic categories. The methodology applied towards this goal is both experimental and computational. In the experimental work classical paradigms such as Categorical Perception and the Perceptual Magnet Effect are applied to determine which prosodic categories posited by phonological theory have a distinctive representation in the perceptual phonetic reference space. The computational model that we are developing serves to formulate hypotheses and make predictions of test results.

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel The TIGER Project
Laufzeit 1999-2004
PI Peter Eisenberg (Potsdam), Christian Rohrer (Stuttgart), Hans Uszkoreit (Saarbrücken)
Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel Sonderforschungsbereich 340 "Sprachtheoretische Grundlagen für die Computerlinguistik"
Laufzeit 1988-2000

Kurzbeschreibung

Der Grundkonzeption des Sonderforschungsbereichs 340 (SFB 340) liegt der Leitgedanke zugrunde, Einsichten und Ergebnisse linguistischer Theoriebildung für die Entwicklung der Computerlinguistik nutzbar zu machen. Den Forschungsschwerpunkt bilden deshalb die Voraussetzungen und Standards, die für eine erfolgreiche Integration struktureller Beschreibungen linguistischer Phänomene und algorithmischer Realisierungen linguistischer Prozesse im Rahmen der Entwicklung von sprachverstehenden und/oder spracherzeugenden Systemen erfüllt sein müssen.

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel Verbundprojekt Verbmobil
Laufzeit Februar 1993 - September 2000

Kurzbeschreibung

Verbundprojekt Verbmobil:
"Multilinguale robuste und direkte Übersetzung spontansprachlicher Dialoge"

Geldgeber Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF)
 
Projekttitel Entwicklung eines prosodischen Moduls für die Diskursrepräsentationstheorie
Laufzeit 01.03.1995 bis 31.12.1997
PI Prof. Dr. phil. habil. Grzegorz Dogil

Kurzbeschreibung

Das Ziel des Teilprojekts C4 ist es, ein prosodisches Modul für die Diskursrepräsentationstheorie (DRT) zu entwickeln. Die Ergänzung der DRT als dynamischer Theorie der Bedeutung um eine prosodische Komponente ist besonders sinnvoll und naheliegend, ist doch die Prosodie das Hauptausdrucksmittel der Sprachdynamik. Viele Ansätze schreiben der Prosodie intuitiv eine wichtige Rolle bei der Interpretation von Diskursen zu. In diesem Projekt soll diese Problemstellung empirisch untersucht werden.

Weitere Informationen zum Projekt finden sich hier.

Geldgeber DFG
 
Projekttitel IMS Corpus Workbench (CWB)

Kurzbeschreibung

In order to support work in the fields of lexicography and terminology, IMS has developed a workbench for full-text retrieval from large textual resources (`corpora').
This work was initiated by the TC Project (`Text Corpora and Tools for their Exploitation').

 
Projekttitel Relator
Laufzeit Dezember 1993 - Juli 1995
PI University of Pisa (Coordinator), DFKI, Universität des Saarlandes, Saarbrücken, LIMSI-CNRS (Orsay/Paris), University of Edinburgh (among others)

Kurzbeschreibung

The project aims at defining a broad organizational framework for the creation, storage, dissemination and maintenance of language resources for both spoken and written language; such resources are necessary for the development of NLP and speech processing products and services but also for research.

Geldgeber Funded at 100% by the Commission of the European Community, DG XIII E5, Luxemburg (under the LRE programme (Linguistic Research and Engineering)).
 
Projekttitel DELIS - Descriptive Lexical Specifications
Laufzeit 1993 - 1995

Kurzbeschreibung

In a cooperation between computational and theoretical linguists, lexicographers and software builders, tools for the corpus-based construction of lexicons are developed. These tools support the acquisition of linguistic evidence from textual corpora, as well as the construction, maintenance and prototyping-like stepwise enhancement of lexical descriptions in the format of typed feature structures. Parallel dictionary fragments for the major lexical semantic classes of English, French, Italian, Danish and Dutch will be described, at the levels of syntax and semantics, including in particular the interaction between the two levels. The representation of lexical descriptions and the tools for population of dictionary models and for model evolution will be based on the typed feature structure system, TFS, an implementation of typed feature logics developed in a previous project of the institute, since 1988.

Geldgeber Funded partly by DG XIII E 4 of the Commission of the European Community, Luxembourg (under the LRE programme, Linguistic Research and Engineering)
 
Projekttitel Textcorpora und Erschliessungswerkzeuge
Laufzeit 1993-1994, 1995-1996

Kurzbeschreibung

In 1993/1994 the project collected textual material for German, French and Italian, developed a representation for texts and markups, along with a query language and a corpus access system for linguistic exploration of the text material. Texts and analysis results are kept separate from each other, for reasons of flexibility and extensibility of the system; this is possible because of a particular approach for storage and representation. Tool components under development, language-specific and general, range from morphosyntactic analysis to partial parsing, and from mutual information, t-score, collocation extraction and clustering to HMM-based tagging and n-gram tagging. Research on statistical models for noun phrases, verb-object collocations, etc. is going on.

Geldgeber The Ministry of Science and Research of the Land Baden-Württemberg (MWF, Stuttgart), in 1993/1994 and 1995/1996, in the framework of the Forschungsschwerpunktprogramm Baden-Württemberg
 
Projekttitel IMS Textcorpora und Lexicon Group

Kurzbeschreibung

The Textcorpora and Lexicon Group was a research group at IMS that brought together the researchers from different projects that were developing lexicons, corpora, and tools to work with them.

The major focus of the Textcorpora and Lexicon Group at the IMS is the creation of large-scale, high-quality lexicons for natural language applications. 'Large scale' and 'high quality' can only be obtained simultaneously if appropriate engineering methods are applied. Therefore, we use text retrieval tools and information extraction methods - specialized to the field of lexicography. Usually, this approach is called 'corpus-based lexicography'.

 
Projekttitel WordGraph

Kurzbeschreibung

The goal of the research project WordGraph is to develop new approaches for the acquisition of lexical information from text corpora. These approaches are based on graph theory. In particular, we are investigating node similarity algorithms such as SimRank for the induction and extension of bilingual lexicons.

Geldgeber Deutsche Forschungsgemeinschaft (DFG)
 
Projekttitel EAGLES (Expert Advisory Group on Linguistic Engineering Standards)

Kurzbeschreibung

EAGLES work groups deal with possibilities of standardization of computational lexicons, textual corpora and their annotations, as well as with proposals for establishment of a basic shared formalism for lexical and grammatical specifications, with problems of standardization in speech and spoken language resources and with procedures and metrics for evaluation and assessment of NLP components, tools and resources.

IMS contributes to the work groups on formalisms, lexicons and corpora. An IMS researcher has been appointed ``internal editor'' of the lexicon group. The project on textual corpora (TC) is an ``affiliated project'' of the group on corpora. IMS participation concerns typed feature logic based formalisms, morphosyntactic, syntactic and semantic description in lexicons and morphosyntactic corpus tagging. IMS is responsible for the production of a final report on the outcome of the lexicon work group (editorship).

 
Projekttitel ISLE - International Standards for Language Engineering

Kurzbeschreibung

Das Projekt

  • ISLE ist eine mulrinationale Intitiative zur Standardisierung von Sprachressourcen und -werkzeugen. ISLE ist der Nachfolger von EAGLES.
  • ISLE ist unter FP-5 als IST-Projekt (Accompanying Action) organisiert.
    Koordinator: ILC Pisa (CNR).
  • ISLE-Arbeitsbereiche:
    • Lexikon (Multilingual Lexicons, MILE)
    • Evalurierung
    • Multimodale Interaktion (NIMM). IMS ist primär in der NIMM-Gruppe engagiert.
  • Weitere Details: siehe ISLE-Homepage bei ILC Pisa

 

 
Projekttitel The ParGram Project in Stuttgart

Kurzbeschreibung

The major goals of the project are the analysis and encoding of important and most generally occurring syntactic structures in German, and the development of parallel analyses for crosslinguistic phenomena. The parallel nature of the analyses is ensured through the concurrent development of German, English, Norvegian, and Japanese LFG-Grammars