Projekt WordGraph

Neue Ansätze zur Erfassung lexikalischer Informationen aus Textkorpora auf Basis der Graphentheorie

WordGraph

Kurzbeschreibung

Ziel des Forschungsprojektes WordGraph ist es, neue Ansätze für die Erfassung lexikalischer Informationen aus Textkorpora zu entwickeln. Diese Ansätze basieren auf der Graphentheorie. Insbesondere untersuchen wir Knotenähnlichkeitsalgorithmen wie SimRank für die Induktion und Erweiterung zweisprachiger Lexika.

Geldgeber
Deutsche Forschungsgemeinschaft (DFG)
Langbeschreibung

Die meisten natürlichen Sprachverarbeitungssysteme sind stark auf Informationen über Wörter und ihre Bedeutung angewiesen, wie sie in einem Lexikon enthalten sind. Ein Lexikon ist jedoch nie vollständig. Die Sprache entwickelt sich ständig weiter, unter anderem durch morphologische Produktivität, Sinneserweiterungen, Kredite aus anderen Sprachen und die ständige Einführung neuer technologischer und wissenschaftlicher Terminologie. Da die manuelle Pflege von Lexika nicht nur langsam, sondern auch anfällig für Inkonsistenzen ist, ist die automatische Erfassung lexikalischer Informationen zu einem wichtigen Forschungsgebiet und einer praktischen Notwendigkeit für große Systeme geworden, die mit echten Daten arbeiten.

Ziel des von der DFG geförderten Forschungsprojektes WordGraph ist es, neue Ansätze für die Erfassung lexikalischer Informationen aus Textkorpora zu entwickeln. Diese Ansätze basieren auf der Graphentheorie.

Beziehungen zwischen Wörtern in einem Text können natürlich durch ein Diagramm dargestellt werden, das Wörter als Knoten und Beziehungen zwischen ihnen als Kanten hat. Die Knoten und Kanten in einem solchen textuellen Diagramm sind von verschiedenen Typen. Knotentypen entsprechen Wortklassen (z.B. Substantive, Verben, Adjektive), und Kantentypen stellen verschiedene Arten von Abhängigkeiten zwischen ihnen dar (z.B. syntaktische Abhängigkeiten, gemeinsames Auftreten in einer Koordination, Mitauftreten). Die Bedeutung eines Wortes wird durch seine Beziehungen (Links) zu den anderen Wörtern (Knoten) im Wortgraphen gekennzeichnet. Die Konnektivitätsstruktur des Wortgraphen enthält somit wertvolle Informationen über Wörter und ihre Bedeutung.

Insbesondere untersuchen wir Knotenähnlichkeitsalgorithmen wie SimRank für die Induktion und Erweiterung zweisprachiger Lexika.

Ressourcen

Als Teil dieses laufenden Projekts haben wir Ressourcen geschaffen, die wir für andere Forscher auf dem Gebiet der lexikalischen Akquisition sowie für die allgemeine NLP-Forschungsgemeinschaft für nützlich halten. Wir stellen diese Ressourcen als Service für die Gemeinschaft zur Verfügung.

 

Daten zur Nomenkoordination

 

Großer Datensatz von Substantiven, die in einer Koordination zusammen vorkommen (z.B. "X und Y"). Auszug aus Wikipedia.

Jede Zeile enthält eine einzige Koordination. Jedes Wort wird mit einem Teil der Sprachkennzeichnung und der Lemma versehen, getrennt durch Schrägstriche: Wort/Tag/Lemma

Beispiele:

complexity/NN/complexity and/CC/and length/NN/length
history/NN/history and/CC/and cultural/JJ/cultural heritage/NN/heritage

Luft/NN/Luft und/KON/und Wasser/NN/Wasser
der/ART/d Starbesetzung/NN/Starbesetzung und/KON/und der/ART/d technischen/ADJA/technisch Raffinessen/NN/Raffinesse

 

 

Adjektiv-Nomen-Änderungsdaten

 

Liste der Adjektive, die Substantive modifizieren (aus Wikipedia)

 Jede Zeile enthält ein einzelnes Adjektiv-Notenpaar.

Beispiele:

left-wing       ideology
political       party
religious       leader

chemisch        Element
deutsch         Film
grell           Lampe

 

 

Verb-Objekt-Daten

 

Liste der Verben und ihres direkten Objekts (extrahiert aus den von der Wikipedia abgeleiteten Parse-Bäumen oben).

Jede Zeile enthält ein einzelnes Verb-Objektpaar.

Beispiele:

turn#off        brain
outwit  enemy
rouse   suspicion

abfahren        Strecke
weiterentwickeln        Technik
annehmen        Ruf

 

 

Sprachübergreifender Thesaurus zur Verwandtschaft

 

Wir verwendeten Graphenähnlichkeitsalgorithmen, um einen zweisprachigen semantischen Verwandtschafts-Thesaurus zu erstellen. Für jedes englische Wort gibt es zehn deutsche Wörter, die vom Algorithmus als verwandt betrachtet werden. und umgekehrt. Die Methode zur Erstellung dieser Ressource wird in einer der nächsten Veröffentlichungen beschrieben (akzeptiert auf der LREC2010).

Die Daten werden in gezippten Textdateien geliefert, die jeweils Blöcke von einem Wort und zehn verwandten Wörtern enthalten, die jeweils in einer eigenen Zeile stehen. Die Zeilen der zugehörigen Wörter sind mit einem TAB-Zeichen eingerückt. Der nächste Block wird durch eine Leerzeile getrennt.

Beispiel:

(lion,n)
        (Panther,n)
        (Nashorn,n)
        (Löwe,n)
        (Büffel,n)
        (Jaguar,n)
        (Leopard,n)
        (Tiger,n)
        (Puma,n)
        (Elefant,n)
        (Antilope,n)

(Möwe,n)
        (gull,n)
        (swan,n)
        (goose,n)
        (duck,n)
        (teal,n)
        (flamingo,n)
        (loon,n)
        (grebe,n)
        (cormorant,n)
        (tern,n)

 

 

Geparste Wikipedia-Daten

 

Wir haben den Text von englischen und deutschen Wikipedia-Artikeln mit BitPar geparst. Dies ist eine der wenigen großen Sammlungen von vergleichbarem Text, der mit dem gleichen Parser geparst wurde.

Die Daten werden in einem Archiv geliefert, das gepackte Dateien mit jeweils etwa 500 geparsten Sätzen bündelt. Jede Zeile besteht aus dem Parse-Baum eines Satzes, der als Struktur verschachtelter Klammern kodiert ist.

Beispielsatz "It is one of 58 counties of Gansu.":

(TOP
 (S/fin/.
  (NP-SBJ/3s/base
   (PRP/3s It))
  (VP/3s
   (VBZ/n is)
   (NP-PRD/pp
    (NP/base
     (QP
      (\<QP\[CD\]IN/of|CD\>
       (CD one)
       (IN/of of))
      (CD 58))
     (NNS counties))
    (PP/of/NP
     (IN/of of)
     (NP/base
      (NNP Gansu)))))
  (. .)))

 

 

Kookurrenzen Daten

 

Liste der gleichzeitig vorkommenden Worttupel aus Wikipedia. Die Kookurrenzen der Wort-Wörter wurden mit Hilfe eines Kookurrenzfensters von 3 aufeinanderfolgenden Wörtern extrahiert. Die Dateien enthalten Tabellen in Form von Stefan http://www.collocations.de/software.html. Die Spalte l1 enthält das linke Wort, die Spalte l2 das rechte Wort. Das rechte Wort wird mit "_x" angehängt, wobei x die Position im Kontextfenster ist. Beispiel ""Aachen amtlich_3"" bedeutet, dass das Wort "amtlich" rechts von "Aachen" vorkam, mit zwei Wörtern dazwischen. Ebenfalls enthalten sind Häufigkeitszählungen des linken Wortes (f1), des rechten Wortes (f2, Positionen werden unterschieden), Zählungen des Paares f und die Statistik der logischen Wahrscheinlichkeit am.log.likelihood. Die Paare werden aus Platzgründen gefiltert, es werden nur Paare mit mehr als einem Vorkommen, mit individuellen Wortfrequenzen > 100 und einem Log-Likelihood-Verhältnis > 3,87 berücksichtigt.

(Tabellen folgen in Kürze)

 

Lexikon Induktionstest Datensatz

Die vergleichende Bewertung von Methoden zur zweisprachigen Lexikoninduktion wird durch das Fehlen einer gemeinsamen Bewertungsmethode und eines gemeinsamen Testdatensatzes erschwert. Zusammen mit Reinhard Rapp (Johannes Gutenberg Universität Mainz) schlagen wir einen gemeinsamen Testdatensatz zur Auswertung von lexikalischen Induktionsexperimenten vor. Wir hoffen, dass diese Daten als Grundlage für eine Standardauswertung dienen.

 

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

 

Webmaster des IMS

Zum Seitenanfang