Position innerhalb des Seitenbaumes

Institut für Maschinelle Sprachverarbeitung
Forschung
Projekte
IMS Corpus Workbench (CWB)

Projekt Corpus Workbench

Eine Workbench für die Volltextrecherche aus großen Textressourcen (`Korpora').

IMS Corpus Workbench (CWB)

Kurzbeschreibung

Um die Arbeit in den Bereichen Lexikographie und Terminologie zu unterstützen, hat das IMS eine Workbench zur Volltextextraktion aus großen Textressourcen (Corpora) entwickelt.
Diese Arbeit wurde vom TC Project (`Text Corpora and Tools for their Exploitation') initiiert.

Langbeschreibung

Features

Abfragesprache

unbegrenzte Anzahl von Attributen pro Korpusposition
reguläre Ausdrücke über Attributwerte einzelner Korpuspositionen (z.B. Platzhalter für Wortformen, part-of-speech Werte)
reguläre Ausdrücke über Sequenzen von Korpuspositionen
(Teil-)Unterstützung von strukturellen Annotationen (z.B. SGML)
inkrementelle Konkordanz
Anwendung einer Abfrage auf alle Elemente einer Liste
'Virtuelle Attribute', d.h. Laufzeitzugriff auf externe Anwendungen (z.B. einen Thesaurus)
Abfragen von parallel übersetzten Texten

Siehe die Übersicht über die Abfragesyntax und einige weitere Beispielabfragen.

Anzeige der Ergebnisse

Benutzerdefinierbare Größe der Anzeige "Keyword im Kontext".
Die Zeilen von "Keyword im Kontext" können auf verschiedene Weise sortiert werden.
Häufigkeitszählungen, z.B. für Wortkombinationen
mehrsprachige Konkordanzen aus abgestimmten Korpora
HTML- und Latexausgabe wird unterstützt
Abfragehistorie

Korpusverwaltung und -vorbereitung

Registrierung von Korpora
'Kodierung' von Korpora, d.h. Indexierung (und Komprimierung)
(für Textquellen im Ein-Wort-pro-Zeile-Format, unter Verwendung von ISO8859/Latin-1 8-Bit-Zeichensätzen und möglicherweise anderen)
So benötigt beispielsweise der BNC-Korpus mit part-of-speech und Lemma-Annotation etwa 1 GB Festplattenspeicher.
Ein schrittweises Hinzufügen von Arten von Korpusnotizen ("Attribute"). Fügen Sie z.B. part-of-speech Werte zu einem Korpus hinzu, sobald Sie Zugriff auf einen POS-Tagger haben.

Extraktion

Die Abfragesprache wird vom 'Corpus Query Processor' (CQP) interpretiert. CQP verlangt, dass Korpora auf die spezifische Weise registriert und kodiert werden.
Früher gab es eine motivbasierte grafische Benutzeroberfläche "xkwic", die den Zugang zu CQP für Nicht-Programmierer komfortabler machte. Daran hat sich seit einigen Jahren nichts geändert, und es scheint nicht mit neueren Versionen der Betriebssysteme zu funktionieren. Der Corpus Query Processor ist also nur ein Kommandozeilenprogramm.

Am IMS ist der größte Corpus, der derzeit von der Corpus Workbench bearbeitet wird, ein deutscher Zeitungscorpus, der aus rund 200 Millionen Token besteht, die mit Lemmata, zwei verschiedenen Part-of-Speech-Tag-Sets und Satzgrenzen versehen sind.

Anwendungen

Die IMS Corpus Workbench wird verwendet für

Datengesteuerte Linguistik:
Extraktion von linguistischem Wissen aus Textressourcen oder Gegenprüfung von linguistischen Annahmen anhand großer Texte.
Lexikographie:
Korpusbasierte Beweise für lexikalische Beschreibungen.
Terminologie:
Extraktion von Begriffen und Bootstrapping von terminologischen Ressourcen.

Referenzen

Oli Christ: "A modular and flexible architecture for an integrated corpus query system". COMPLEX'94, Budapest, 1994.

Oli Christ und B.M.Schulze: "Ein flexibles und modulares Anfragesystem für Textcorpora". Tagungsbericht des Arbeitstreffen Lexikon + Text. Niemeyer, Tübingen, 1995.

Projekt Corpus Workbench

IMS Corpus Workbench (CWB)

Features

Abfragesprache

Anzeige der Ergebnisse

Korpusverwaltung und -vorbereitung

Extraktion

Ulrich Heid

Zielgruppe

Formalia

Services

Organisation

Projekt Corpus Workbench

IMS Corpus Workbench (CWB)

Features

Abfragesprache

Anzeige der Ergebnisse

Korpusverwaltung und -vorbereitung

Extraktion

Ulrich Heid

So erreichen Sie uns

Zielgruppe

Formalia

Services

Organisation