Willkommen am Lehrstuhl für Grundlagen der Computerlinguistik am IMS der Universität Stuttgart. Seit Januar 2010 wird die Gruppe von Prof. Jonas Kuhn geleitet.
Unsere Gruppe arbeitet an Berechnungsmodellen für die Verarbeitung natürlicher Sprache unter Verwendung regelbasierter und statistischer Techniken.
Derzeitige Forschungsprojekte:
- DFG-Projekt MARDY (“Modeling Argumentation Dynamics in Political Discourse”). Interdisziplinäres Projekt im DFG-Schwerpunktprogramms 1999 Robust Argumentation Machines (RATIO), Förderung in beiden Phasen
- Projektleitung: Sebastian Haunss, Bremen/Jonas Kuhn und Sebastian Padó, Stuttgart
- terra incognita-Projekt Optimale Kommunikation: Experimentalforschung in Kombination mit Simulation und Computerlinguistik
- Projektleitung: Prof. André Bächtiger, Institut für Sozialwissenschaften. Projektpartner: Gregor Betz, KIT; Raphael H. Heiberger Institut für Sozialwissenschaften, Universität Stuttgart; Prof. Jonas Kuhn und Sebastian Pado, Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart
- Knowledge-Language Interaction, IBM AI Horizons Network
- Projektleitung: Jonas Kuhn, Sebastian Padó, Ngoc Thang Vu)
- Projekt SDC4Lit (Science Data Center für Literatur)
- Projektleitung: Roland Kamzelak, Deutsches Literaturarchiv Marbach, Ko-Projektleitung Michael Resch, Höchstleistungsrechenzentrum Stuttgart, Jonas Kuhn, IMS Stuttgart, Gabriel Viehhauser, Digital Humanities, Universität Stuttgart
- Projekt XSample („Text Mining auf geschützten Werken durch Auszüge transparent erschließen“), Förderung durch das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg im Rahmen des Programms „Wissenschaftliche Bibliotheken gestalten den digitalen Wandel (BW-BigDIWA)“
- Projektleitung: Helge Steenweg, Universitätsbibliothek Stuttgart/Jonas Kuhn, Computerlinguistik/Thomas Dreier, Zentrum für Angewandte Rechtswissenschaft, KIT Karlsruhe)
- textklang: Mixed-methods-Analyse von Lyrik in Text und Ton
- Universität Stuttgart: Prof. Dr. Jonas Kuhn, Prof. Dr. Gabriel Viehhauser, Prof. Dr. Ngoc Thang Vu
- Deutsches Literaturarchiv Marbach (DLA): Prof. Dr. Sandra Richter, Dr. Anna Kinder, Dr. Gunilla Eschenbach
- Ab November 2021: DFG-Projekt CAUTION („Computer-aided Analysis of Unreliability and Truth in Fiction – Interconnecting and Operationalizing Narratology“)
- Projektleitung: Janina Jacke, Göttingen/Jonas Kuhn, Stuttgart
Abgeschlossene Projekte (Auswahl)
- 2010 – 2020 Infrastrukturprojekt CLARIN-D (Common language resource infrastructure): Förderung durch BMBF/MWK Baden-Württemberg
- 2016 – 2018 “RePlay-DH” zum Forschungsdatenmanagement für die Digital Humanities
- Projektleitung: Dr. H. Steenweg (Univ.-Bib. Stuttgart), Prof. J. Kuhn (IMS Uni Stuttgart), Prof. S. Wesner (Universität Ulm); Förderung durch MWK Baden-Württemberg
- 2016 “DebateExplorer”-Projekt mit der Wissenschaftsjournalistin Eva Wolfangel (gefördert im Rahmen der Datenjournalismus- Förderlinie der Volkswagen-Stiftung)
- 2010 – 2018 DFG-SFB 732 “Inkrementelle Spezifikation im Kontext” (2015-18 Sprecher)
- 2013 – 2016 eHumanities-Projekts “ePoetics”
- Projektleitung: Professorin Dr. Sandra Richter, Neuere Deutsche Literatur, Universität Stuttgart; Förderung durch das BMBF
- 2012 – 2015 eHumanities-Projekts “e-Identity”
- Projektleitung: Professorin Dr. Cathleen Kantner, Politikwissenschaft, Universität; Förderung durch das BMBF
Forschungsinteressen der Gruppenmitglieder
Statistische Modelle für das Parsing von Abhängigkeiten, die sich auf morphologisch reiche Sprachen konzentrieren. Unsere Forschung konzentriert sich insbesondere auf die Interaktion zwischen Morphologie und Syntax. Unsere Gruppe erzielte die besten Ergebnisse bei den beiden jüngsten gemeinsamen Aufgaben zum Parsen von morphologisch reichen Sprachen (SPMRL 2013 und SPMRL 2014). Wir sind auch an der Anpassung der universellen Abhängigkeiten an die deutsche Sprache beteiligt.
Ausgewählte Publikationen:
- Wolfgang Seeker and Jonas Kuhn, Morphological and Syntactic Case in Statistical Dependency Parsing. Computational Linguistics, 39(1), 2013.
- Wolfgang Seeker and Jonas Kuhn, The Effects of Syntactic Features in Automatic Prediction of Morphology. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013.
- Anders Björkelund, Özlem Çetinoğlu, Agnieszka Faleńska, Richárd Farkas, Thomas Müller, Wolfgang Seeker, and Zsolt Szántó. The IMS-Wrocław-Szeged-CIS Entry at the SPMRL 2014 Shared Task: Reranking and Morphosyntax Meet Unlabeled Data. In Fifth Workshop on Statistical Parsing of Morphologically-Rich Languages, 2014.
- Wolfgang Seeker and Özlem Çetinoğlu. A Graph-based Lattice Dependency Parser for Joint Morphological Segmentation and Syntactic Analysis. Transactions of the Association for Computational Linguistics (3), 2015.
- Anders Björkelund and Joakim Nivre. Non-Deterministic Oracles for Unrestricted Non-Projective Dependency Parsing. Proceedings of the 14th International Conference on Parsing Technologies, 2015.
- Anders Björkelund, Agnieszka Faleńska, Wolfgang Seeker, and Jonas Kuhn. How to Train Dependency Parsers with Inexact Search for Joint Sentence Boundary Detection and Parsing of Entire Documents. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2016.
Algorithmische und theoretische Herausforderungen Informationsstruktur und Koreferenz. Wir entwickeln neuartige Algorithmen zur automatischen Lösung dieser Aufgaben, entwickeln Annotationsschemata und führen Annotationsaufgaben durch. Von besonderem Interesse ist die Interaktion zwischen Informationsstruktur und Prosodie, sowohl auf der Modellierungs- als auch auf der Berechnungsseite.
Ausgewählte Publikationen:
- Stefan Baumann and Arndt Riester. Referential and Lexical Givenness: semantic, prosodic and cognitive aspects. Prosody and Meaning (Interface Explorations 25), eds. Gorka Elordieta and Pilar Prieto, 2012.
- Anders Björkelund, Kerstin Eckart, Arndt Riester, Nadja Schauffler, and Katrin Schweitzer. The Extended DIRNDL Corpus as a Resource for Automatic Coreference and Bridging Resolution. Proceedings of the Ninth International Conference on Language Resources and Evaluation, 2014.
- Anders Björkelund and Jonas Kuhn. Learning Structured Perceptrons for Coreference Resolution with Latent Antecedents and Non-local Features. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2014.
- Ina Rösiger and Arndt Riester. Using prosodic annotations to improve coreference resolution of spoken text. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), 2015.
Algorithmische und architektonische Aspekte der datengesteuerten Erzeugung. Insbesondere die Interaktion zwischen referenzierender Expressionsgenerierung und Oberflächenrealisierung für End-to-End-Erzeugungssysteme und morphologisch reiche Sprachen (z.B. Deutsch). In jüngerer Zeit schwach überwachtes Lernen von Darstellungen für die Daten-zu-Text-Generierung und das semantische Parsen.
Ausgewählte Publikationen:
- Sina Zarrieß, Aoife Cahill, and Jonas Kuhn. Underspecifying and Predicting Voice for Surface Realisation Ranking. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011.
- Bernd Bohnet, Anders Björkelund, Jonas Kuhn, Wolfgang Seeker, and Sina Zarrieß. Generating Non-Projective Word Order in Statistical Linearization. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012.
- Sina Zarrieß, Aoife Cahill, and Jonas Kuhn. To what extent does sentence-internal realisation reflect discourse context? A study on word order. In Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, 2012.
- Kyle Richardson and Jonas Kuhn. Learning to Make Inferences in a Semantic Parsing Task. Transactions of the Association of Computional Linguistics (TACL) 2016: 155-168.
- Sina Zarrieß and Kyle Richardson. An Automatic Method for Building a Data-to-Text Generator. Proceedings of the 14th European Workshop on Natural Language Generation, 2013.
In Fortführung einer langen Tradition der Arbeit an korporativen und sprachtechnologischen Instrumenten am IMS ist unsere Gruppe an Projekten beteiligt, die sich auf infrastrukturelle Aspekte und die Nachhaltigkeit von Sprachressourcen konzentrieren. Dazu gehören die Erstellung von schlüsselfertigen Toolketten und Webservices, der einfache Zugriff auf Daten mittels Visualisierungs- und Abfragewerkzeugen, die Erstellung von Metadaten und die Dokumentation von Workflows für alle Arten von Sprachressourcen sowie die Unterstützung kollaborativer Annotations- und Kurationstätigkeiten. Die Gruppe betreibt auch das Stuttgarter CLARIN-D-Zentrum.
Ausgewählte Publikationen:
- Andre Blessing, Jens Stegmann, and Jonas Kuhn. SOA meets Relation Extraction: Less may be more in Interaction. Proceedings of the Workshop on Service-oriented Architectures (SOAs) for the Humanities: Solutions and Impacts, Digital Humanities, 2012.
- Markus Gärtner, Gregor Thiele, Wolfgang Seeker, Anders Björkelund, and Jonas Kuhn. ICARUS -- An Extensible Graphical Search Tool for Dependency Treebanks. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2013.
- Andre Blessing, and Jonas Kuhn. Textual Emigration Analysis (TEA). Proceedings of the Ninth International Conference on Language Resources and Evaluation, 2014.
- Markus Gärtner, Anders Björkelund, Gregor Thiele, Wolfgang Seeker, and Jonas Kuhn. Visualization, Search, and Error Analysis for Coreference Annotations. Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2014.
- Cerstin Mahlow, Kerstin Eckart, Jens Stegmann, Andre Blessing, Gregor Thiele, Markus Gärtner, and Jonas Kuhn. Resources, Tools, and Applications at the CLARIN Center Stuttgart. Proceedings of the 12th Konferenz zur Verarbeitung natürlicher Sprache (KONVENS 2014), 2014.
Wir arbeiten mit verschiedenen geisteswissenschaftlichen Disziplinen zusammen und entwickeln einen gemeinsamen methodischen Rahmen für die Analyse großer Textkorpora anhand spezifischer inhaltlich-analytischer Fragestellungen. Eines unserer Ziele ist es, die aggregierten Ergebnisse solcher Analysen für Geisteswissenschaftler transparent zu machen, was anpassungsfähige Modelle und interaktive Werkzeuge und Benutzeroberflächen erfordert. Wir haben an mehreren DH-bezogenen Projekten mitgewirkt: CLARIN-D, e-Identity, ePoetics, und wir sind an einem neuen Stuttgarter Zentrum für reflektierte Textanalytik (CRETA) in den digitalen Geisteswissenschaften beteiligt.
Ausgewählte Publikationen:
- Andre Blessing, Andrea Glaser, and Jonas Kuhn. Biographical Data Exploration as a Test-bed for a Multi-view, Multi-method Approach in the Digital Humanities. Proceedings of the first Conference on Biographical Data in a Digital World, 2015.
- Andre Blessing, Fritz Kliche, Ulrich Heid, Cathleen Kantner, and Jonas Kuhn. Computerlinguistische Werkzeuge zur Erschließung und Exploration großer Textsammlungen aus der Perspektive fachspezifischer Theorie. Grenzen und Möglichkeiten der Digital Humanities Sonderband 1, 2015.
- Jonas Kuhn and Nils Reiter. A Plea for a Method-driven Agenda in the Digital Humanities. Global Digital Humanities Conference, Sydney, Australia. 2015.
- Markus John, Steffen Koch, Florian Heimerl, Andreas Müller, Thomas Ertl, and Jonas Kuhn. Interactive Visual Analysis Of German Poetics. Global Digital Humanities Conference, 2015.
- Nils Reiter. Towards Annotating Narrative Segments. Proceedings of the 9th SIGHUM Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH), 2015.
- Schulz, S. & Keller, M. (2016). Code-Switching Ubique Est - Language Identification and Part-of-Speech Tagging for Historical Mixed Text. LaTeCH@ACL, August, Berlin: The Association for Computer Linguistics.
In Fortführung einer langen Tradition am IMS liegt ein Schwerpunkt unserer Gruppe auf der Diskursrepräsentationstheorie, der Syntax-Semantik-Schnittstelle und der Rolle lexikalischer Informationen in der Wortbildung und der Satz-/Diskurs-Semantik.
Ausgewählte Publikationen:
- Antje Rossdeutscher and Hans Kamp. Syntactic and Semantic Constraints in the Formation and Interpretation of ung-Nouns, in A. Alexiadou and M. Rathert (eds), The Semantics of Nominalisations across Languages and Frameworks, Interface Explorations 22, Mouton de Gruyter, Berlin, pp. 169-214. 2011.
- Boris Haselbach, Kerstin Eckart, Wolfgang Seeker, Kurt Eberle & Ulrich Heid. Approximating Theoretical Linguistics Classification in Real Data: the Case of German nach Particle Verbs. In Proceedings of the 24th International Conference on Computational Linguistics (COLING-2012), IIT Bombay, Mumbai, December 8-15, 2012.
- Tillmann Pross. Mono-eventive verbs of emission and their bi-eventive nominalizations. 45th Conference of the North East Linguistics Society (NELS). 2014.
- Antje Rossdeutscher. When roots license and when they respect semantico-syntactic structure, in A. Alexiadou, H. Borer and F. Schäfer (eds), The Syntax and Roots and the Roots of Syntax, Oxford University Press, 2014.
Verbundene Gruppen
- Distributional Approaches to Semantic Relatedness
PI: PD Dr. Sabine Schulte im Walde - Tree Transducers in Machine Translation
PI: Dr. Andreas Maletti
