IMS Corpus Workbench (CWB)
- Kurzbeschreibung
-
Um die Arbeit in den Bereichen Lexikographie und Terminologie zu unterstützen, hat das IMS eine Workbench zur Volltextextraktion aus großen Textressourcen (Corpora) entwickelt.
Diese Arbeit wurde vom TC Project (`Text Corpora and Tools for their Exploitation') initiiert. - Langbeschreibung
-
Um die Arbeit in den Bereichen Lexikographie und Terminologie zu unterstützen, hat das IMS eine Workbench zur Volltextextraktion aus großen Textressourcen (Corpora) entwickelt.
Diese Arbeit wurde vom TC Project (`Text Corpora and Tools for their Exploitation') initiiert.Features
Abfragesprache
- unbegrenzte Anzahl von Attributen pro Korpusposition
- reguläre Ausdrücke über Attributwerte einzelner Korpuspositionen (z.B. Platzhalter für Wortformen, part-of-speech Werte)
- reguläre Ausdrücke über Sequenzen von Korpuspositionen
- (Teil-)Unterstützung von strukturellen Annotationen (z.B. SGML)
- inkrementelle Konkordanz
- Anwendung einer Abfrage auf alle Elemente einer Liste
- 'Virtuelle Attribute', d.h. Laufzeitzugriff auf externe Anwendungen (z.B. einen Thesaurus)
- Abfragen von parallel übersetzten Texten
Siehe die Übersicht über die Abfragesyntax und einige weitere Beispielabfragen.
Anzeige der Ergebnisse
- Benutzerdefinierbare Größe der Anzeige "Keyword im Kontext".
- Die Zeilen von "Keyword im Kontext" können auf verschiedene Weise sortiert werden.
- Häufigkeitszählungen, z.B. für Wortkombinationen
- mehrsprachige Konkordanzen aus abgestimmten Korpora
- HTML- und Latexausgabe wird unterstützt
- Abfragehistorie
Korpusverwaltung und -vorbereitung
- Registrierung von Korpora
- 'Kodierung' von Korpora, d.h. Indexierung (und Komprimierung)
(für Textquellen im Ein-Wort-pro-Zeile-Format, unter Verwendung von ISO8859/Latin-1 8-Bit-Zeichensätzen und möglicherweise anderen)
So benötigt beispielsweise der BNC-Korpus mit part-of-speech und Lemma-Annotation etwa 1 GB Festplattenspeicher. - Ein schrittweises Hinzufügen von Arten von Korpusnotizen ("Attribute"). Fügen Sie z.B. part-of-speech Werte zu einem Korpus hinzu, sobald Sie Zugriff auf einen POS-Tagger haben.
Extraktion
Die Abfragesprache wird vom 'Corpus Query Processor' (CQP) interpretiert. CQP verlangt, dass Korpora auf die spezifische Weise registriert und kodiert werden.
Früher gab es eine motivbasierte grafische Benutzeroberfläche "xkwic", die den Zugang zu CQP für Nicht-Programmierer komfortabler machte. Daran hat sich seit einigen Jahren nichts geändert, und es scheint nicht mit neueren Versionen der Betriebssysteme zu funktionieren. Der Corpus Query Processor ist also nur ein Kommandozeilenprogramm.Am IMS ist der größte Corpus, der derzeit von der Corpus Workbench bearbeitet wird, ein deutscher Zeitungscorpus, der aus rund 200 Millionen Token besteht, die mit Lemmata, zwei verschiedenen Part-of-Speech-Tag-Sets und Satzgrenzen versehen sind.
- Anwendungen
-
Die IMS Corpus Workbench wird verwendet für
- Datengesteuerte Linguistik:
Extraktion von linguistischem Wissen aus Textressourcen oder Gegenprüfung von linguistischen Annahmen anhand großer Texte. - Lexikographie:
Korpusbasierte Beweise für lexikalische Beschreibungen. - Terminologie:
Extraktion von Begriffen und Bootstrapping von terminologischen Ressourcen.
- Datengesteuerte Linguistik:
- Referenzen
-
Oli Christ: "A modular and flexible architecture for an integrated corpus query system". COMPLEX'94, Budapest, 1994.
Oli Christ und B.M.Schulze: "Ein flexibles und modulares Anfragesystem für Textcorpora". Tagungsbericht des Arbeitstreffen Lexikon + Text. Niemeyer, Tübingen, 1995.