LOGO

Ph.D. Thesis Wolfgang Lezius

Title:   Ein Suchwerkzeug für syntaktisch annotierte Textkorpora
Author: Wolfgang Lezius
Year: December 2002
Reference: Arbeitspapiere des Instituts für Maschinelle Sprachverarbeitung (AIMS), 2002, vol. 8, no. 4
Institution: IMS, University of Stuttgart, Germany
Language: German
Download: Postscript (1672 KB)   -  PDF (1464 KB)

Abstract

This thesis presents the design and implementation of the TIGERSearch tool. Although this search tool has been specially developed for searching the TIGER treebank, it can also be used for a large number of other existing syntactically annotated text corpora. The first section of the thesis discusses existing treebank search tools and treebank representation formats. It concludes that both a specialized search tool and a representation format have to be developed for the TIGER treebank. The second section defines a corpus description language, i.e. a formal language that can be used for both corpus definition and corpus querying. It also presents the TIGER-XML format, an XML-based treebank representation format that is semantically equivalent to the corpus definition part of the proposed format. The third section of the thesis describes the processing of corpus queries. It defines a calculus that checks if a query can be deduced from a corpus by applying inference rules. Subsequently the implementation of the calculus is described in detail. Finally, the fourth section presents some essential aspects of the graphical user interface of the search tool.

Extended abstract:   Postscript (216 KB)   -  PDF (112 KB)

Zusammenfassung

Diese Dissertation beschreibt die Konzeption und Implementation von TIGERSearch, einem Suchwerkzeug für syntaktisch annotierte Textkorpora. Das Werkzeug ist speziell zur Suche auf der deutschsprachigen TIGER-Baumbank, aber auch zur Suche auf möglichst vielen weiteren Baumbankformaten entwickelt worden.

Der erste Teil der Arbeit stellt bisherige Arbeiten im Bereich Baumbank-Suchwerkzeuge und Baumbank-Repräsentationsformate vor. Die Diskussion dieser Arbeiten zeigt, dass kein verfügbares Suchwerkzeug die Besonderheiten der TIGER-Baumbank vollständig abdeckt, so dass die Entwicklung eines speziellen Werkzeugs erforderlich ist.

Der zweite Teil stellt eine Korpusbeschreibungssprache vor, die sowohl zur Korpusdefinition als auch zur Korpusanfrage verwendet wird. Durch diese Verbindung ergeben sich zahlreiche Vorteile, u.a. muss lediglich die Syntax und Semantik einer Sprache formal definiert werden. Mit dem XML-basierten TIGER-XML-Format wird eine weitere Sprache beschrieben, die zur Korpusdefinition der Beschreibungssprache semantisch äquivalent ist und dabei zahlreiche technische Probleme wie die Kodierung von Sonderzeichen löst. Eine formale Definition der Syntax und Semantik der Beschreibungssprache schließt diesen Teil der Arbeit ab.

Im dritten Teil wird die Verarbeitung von Korpusanfragen behandelt. Dazu wird zunächst ein Logikkalkül definiert, der einen syntaktischen Ableitungsbegriff definiert. Hier wird mit Hilfe von Verarbeitungsregeln überprüft, ob eine Anfrage aus einem Korpus folgt. Die Abfrageverarbeitung des Suchwerkzeugs implementiert diesen Kalkül. Die Implementation setzt sich aus der Repräsentation des Korpus als Index und der Anfrageverarbeitung zur Laufzeit zusammen. Die Konzeption und Realisierung der Implementation werden detailliert beschrieben. Überlegungen zur Verbesserung der Verarbeitungseffizienz runden diesen Teil ab.

Der abschließende vierte Teil der Arbeit behandelt ausgewählte Aspekte der grafischen Benutzeroberfläche. Hier werden u.a. Konzepte zur Visualisierung von Anfrageergebnissen und Ideen zur grafischen Eingabe von Suchanfragen vorgestellt.

BibTeX entry:

@PhdThesis{LeziusDiss,
  author = 	 "Wolfgang Lezius",
  title = 	 "Ein Suchwerkzeug f{\"u}r syntaktisch annotierte Textkorpora",
  school = 	 "IMS, University of Stuttgart",
  year = 	 2002,
  month =	 "December",
  note =	 "{A}rbeitspapiere des Instituts für Maschinelle Sprachverarbeitung (AIMS), volume 8, number 4",
  url =		 "http://www.ims.uni-stuttgart.de/projekte/corplex/paper/lezius/diss/",
  postscript =	 "http://www.ims.uni-stuttgart.de/projekte/corplex/paper/lezius/diss/disslezius.ps.gz",
  pdf =		 "http://www.ims.uni-stuttgart.de/projekte/corplex/paper/lezius/diss/disslezius.pdf"
}

Links:

TIGERSearch Homepage

TIGER Project Homepage

IMS Homepage

This page has been created by Wolfgang Lezius. Last modified on 7.4.2003.