Projekt Corpus Workbench

Eine Workbench für die Volltextrecherche aus großen Textressourcen (`Korpora').

IMS Corpus Workbench (CWB)

Kurzbeschreibung

Um die Arbeit in den Bereichen Lexikographie und Terminologie zu unterstützen, hat das IMS eine Workbench zur Volltextextraktion aus großen Textressourcen (Corpora) entwickelt.
Diese Arbeit wurde vom TC Project (`Text Corpora and Tools for their Exploitation') initiiert.

Langbeschreibung

Um die Arbeit in den Bereichen Lexikographie und Terminologie zu unterstützen, hat das IMS eine Workbench zur Volltextextraktion aus großen Textressourcen (Corpora) entwickelt.
Diese Arbeit wurde vom TC Project (`Text Corpora and Tools for their Exploitation') initiiert.

Features

Abfragesprache

  • unbegrenzte Anzahl von Attributen pro Korpusposition
  • reguläre Ausdrücke über Attributwerte einzelner Korpuspositionen (z.B. Platzhalter für Wortformen, part-of-speech Werte)
  • reguläre Ausdrücke über Sequenzen von Korpuspositionen
  • (Teil-)Unterstützung von strukturellen Annotationen (z.B. SGML)
  • inkrementelle Konkordanz
  • Anwendung einer Abfrage auf alle Elemente einer Liste
  • 'Virtuelle Attribute', d.h. Laufzeitzugriff auf externe Anwendungen (z.B. einen Thesaurus)
  • Abfragen von parallel übersetzten Texten

Siehe die Übersicht über die Abfragesyntax  und einige weitere Beispielabfragen.

Anzeige der Ergebnisse

  • Benutzerdefinierbare Größe der Anzeige "Keyword im Kontext".
  • Die Zeilen von "Keyword im Kontext" können auf verschiedene Weise sortiert werden.
  • Häufigkeitszählungen, z.B. für Wortkombinationen
  • mehrsprachige Konkordanzen aus abgestimmten Korpora
  • HTML- und Latexausgabe wird unterstützt
  • Abfragehistorie

Korpusverwaltung und -vorbereitung

  • Registrierung von Korpora
  • 'Kodierung' von Korpora, d.h. Indexierung (und Komprimierung)
    (für Textquellen im Ein-Wort-pro-Zeile-Format, unter Verwendung von ISO8859/Latin-1 8-Bit-Zeichensätzen und möglicherweise anderen)
    So benötigt beispielsweise der BNC-Korpus mit part-of-speech und Lemma-Annotation etwa 1 GB Festplattenspeicher.
  • Ein schrittweises Hinzufügen von Arten von Korpusnotizen ("Attribute"). Fügen Sie z.B. part-of-speech Werte zu einem Korpus hinzu, sobald Sie Zugriff auf einen POS-Tagger haben.

Extraktion

Die Abfragesprache wird vom 'Corpus Query Processor' (CQP) interpretiert. CQP verlangt, dass Korpora auf die spezifische Weise registriert und kodiert werden.
Früher gab es eine motivbasierte grafische Benutzeroberfläche "xkwic", die den Zugang zu CQP für Nicht-Programmierer komfortabler machte. Daran hat sich seit einigen Jahren nichts geändert, und es scheint nicht mit neueren Versionen der Betriebssysteme zu funktionieren. Der Corpus Query Processor ist also nur ein Kommandozeilenprogramm.

Am IMS ist der größte Corpus, der derzeit von der Corpus Workbench bearbeitet wird, ein deutscher Zeitungscorpus, der aus rund 200 Millionen Token besteht, die mit Lemmata, zwei verschiedenen Part-of-Speech-Tag-Sets und Satzgrenzen versehen sind.

Anwendungen

Die IMS Corpus Workbench wird verwendet für

  • Datengesteuerte Linguistik:
    Extraktion von linguistischem Wissen aus Textressourcen oder Gegenprüfung von linguistischen Annahmen anhand großer Texte.
  • Lexikographie:
    Korpusbasierte Beweise für lexikalische Beschreibungen.
  • Terminologie:
    Extraktion von Begriffen und Bootstrapping von terminologischen Ressourcen.
Referenzen

Oli Christ: "A modular and flexible architecture for an integrated corpus query system". COMPLEX'94, Budapest, 1994.

Oli Christ und B.M.Schulze: "Ein flexibles und modulares Anfragesystem für Textcorpora". Tagungsbericht des Arbeitstreffen Lexikon + Text. Niemeyer, Tübingen, 1995.

Ulrich Heid

Apl. Prof. PD Dr.
Zum Seitenanfang