WordGraph
- Kurzbeschreibung
-
Ziel des Forschungsprojektes WordGraph ist es, neue Ansätze für die Erfassung lexikalischer Informationen aus Textkorpora zu entwickeln. Diese Ansätze basieren auf der Graphentheorie. Insbesondere untersuchen wir Knotenähnlichkeitsalgorithmen wie SimRank für die Induktion und Erweiterung zweisprachiger Lexika.
- Geldgeber
-
Deutsche Forschungsgemeinschaft (DFG)
- Langbeschreibung
-
Die meisten natürlichen Sprachverarbeitungssysteme sind stark auf Informationen über Wörter und ihre Bedeutung angewiesen, wie sie in einem Lexikon enthalten sind. Ein Lexikon ist jedoch nie vollständig. Die Sprache entwickelt sich ständig weiter, unter anderem durch morphologische Produktivität, Sinneserweiterungen, Kredite aus anderen Sprachen und die ständige Einführung neuer technologischer und wissenschaftlicher Terminologie. Da die manuelle Pflege von Lexika nicht nur langsam, sondern auch anfällig für Inkonsistenzen ist, ist die automatische Erfassung lexikalischer Informationen zu einem wichtigen Forschungsgebiet und einer praktischen Notwendigkeit für große Systeme geworden, die mit echten Daten arbeiten.
Ziel des von der DFG geförderten Forschungsprojektes WordGraph ist es, neue Ansätze für die Erfassung lexikalischer Informationen aus Textkorpora zu entwickeln. Diese Ansätze basieren auf der Graphentheorie.
Beziehungen zwischen Wörtern in einem Text können natürlich durch ein Diagramm dargestellt werden, das Wörter als Knoten und Beziehungen zwischen ihnen als Kanten hat. Die Knoten und Kanten in einem solchen textuellen Diagramm sind von verschiedenen Typen. Knotentypen entsprechen Wortklassen (z.B. Substantive, Verben, Adjektive), und Kantentypen stellen verschiedene Arten von Abhängigkeiten zwischen ihnen dar (z.B. syntaktische Abhängigkeiten, gemeinsames Auftreten in einer Koordination, Mitauftreten). Die Bedeutung eines Wortes wird durch seine Beziehungen (Links) zu den anderen Wörtern (Knoten) im Wortgraphen gekennzeichnet. Die Konnektivitätsstruktur des Wortgraphen enthält somit wertvolle Informationen über Wörter und ihre Bedeutung.
Insbesondere untersuchen wir Knotenähnlichkeitsalgorithmen wie SimRank für die Induktion und Erweiterung zweisprachiger Lexika.
- Ressourcen
-
Als Teil dieses laufenden Projekts haben wir Ressourcen geschaffen, die wir für andere Forscher auf dem Gebiet der lexikalischen Akquisition sowie für die allgemeine NLP-Forschungsgemeinschaft für nützlich halten. Wir stellen diese Ressourcen als Service für die Gemeinschaft zur Verfügung.
Daten zur Nomenkoordination
Großer Datensatz von Substantiven, die in einer Koordination zusammen vorkommen (z.B. "X und Y"). Auszug aus Wikipedia.
-
Englische Substantiv-Koordinationen (ca. 5.8M-Koordinationen): EN-Daten herunterladen (gezippt, 114MB)
-
Deutsche Substantiv-Koordinationen (ca. 2.2M-Koordinationen): DE-Daten herunterladen (gezippt, 50MB)
Jede Zeile enthält eine einzige Koordination. Jedes Wort wird mit einem Teil der Sprachkennzeichnung und der Lemma versehen, getrennt durch Schrägstriche: Wort/Tag/Lemma
Beispiele:
complexity/NN/complexity and/CC/and length/NN/length history/NN/history and/CC/and cultural/JJ/cultural heritage/NN/heritage Luft/NN/Luft und/KON/und Wasser/NN/Wasser der/ART/d Starbesetzung/NN/Starbesetzung und/KON/und der/ART/d technischen/ADJA/technisch Raffinessen/NN/Raffinesse
Adjektiv-Nomen-Änderungsdaten
Liste der Adjektive, die Substantive modifizieren (aus Wikipedia)
-
EN-Daten herunterladen (gzipped, 157MB) (32M Beziehungen)
-
DE-Daten herunterladen (gzipped, 71MB) (12M-Beziehungen)
Jede Zeile enthält ein einzelnes Adjektiv-Notenpaar.
Beispiele:
left-wing ideology political party religious leader chemisch Element deutsch Film grell Lampe
Verb-Objekt-Daten
Liste der Verben und ihres direkten Objekts (extrahiert aus den von der Wikipedia abgeleiteten Parse-Bäumen oben).
-
EN-Daten herunterladen (gzipped, 5,3 MB) (11,7 Mio. Beziehungen)
-
DE-Daten herunterladen (gzipped, 1,6 MB) (1,6 Mio. Beziehungen)
Jede Zeile enthält ein einzelnes Verb-Objektpaar.
Beispiele:
turn#off brain outwit enemy rouse suspicion abfahren Strecke weiterentwickeln Technik annehmen Ruf
Sprachübergreifender Thesaurus zur Verwandtschaft
Wir verwendeten Graphenähnlichkeitsalgorithmen, um einen zweisprachigen semantischen Verwandtschafts-Thesaurus zu erstellen. Für jedes englische Wort gibt es zehn deutsche Wörter, die vom Algorithmus als verwandt betrachtet werden. und umgekehrt. Die Methode zur Erstellung dieser Ressource wird in einer der nächsten Veröffentlichungen beschrieben (akzeptiert auf der LREC2010).
-
Englisch->Deutsche Verwandtschaftsdaten (ca. 9000 Einträge): EN->DE Daten herunterladen
-
Deutsch->Englische Verwandtschaftsdaten (ca. 6000 Einträge): DE->EN Daten herunterladen
Die Daten werden in gezippten Textdateien geliefert, die jeweils Blöcke von einem Wort und zehn verwandten Wörtern enthalten, die jeweils in einer eigenen Zeile stehen. Die Zeilen der zugehörigen Wörter sind mit einem TAB-Zeichen eingerückt. Der nächste Block wird durch eine Leerzeile getrennt.
Beispiel:
(lion,n) (Panther,n) (Nashorn,n) (Löwe,n) (Büffel,n) (Jaguar,n) (Leopard,n) (Tiger,n) (Puma,n) (Elefant,n) (Antilope,n) (Möwe,n) (gull,n) (swan,n) (goose,n) (duck,n) (teal,n) (flamingo,n) (loon,n) (grebe,n) (cormorant,n) (tern,n)
Geparste Wikipedia-Daten
Wir haben den Text von englischen und deutschen Wikipedia-Artikeln mit BitPar geparst. Dies ist eine der wenigen großen Sammlungen von vergleichbarem Text, der mit dem gleichen Parser geparst wurde.
-
Englische Parsdaten (3,4GB, ca. 30M Sätze): Englische Parsdaten herunterladen
-
Deutsche Parsdaten (1,6GB, ca. 12.7M Sätze): Deutsche Parsdaten herunterladen
Die Daten werden in einem Archiv geliefert, das gepackte Dateien mit jeweils etwa 500 geparsten Sätzen bündelt. Jede Zeile besteht aus dem Parse-Baum eines Satzes, der als Struktur verschachtelter Klammern kodiert ist.
Beispielsatz "It is one of 58 counties of Gansu.":
(TOP (S/fin/. (NP-SBJ/3s/base (PRP/3s It)) (VP/3s (VBZ/n is) (NP-PRD/pp (NP/base (QP (\<QP\[CD\]IN/of|CD\> (CD one) (IN/of of)) (CD 58)) (NNS counties)) (PP/of/NP (IN/of of) (NP/base (NNP Gansu))))) (. .)))
Kookurrenzen Daten
Liste der gleichzeitig vorkommenden Worttupel aus Wikipedia. Die Kookurrenzen der Wort-Wörter wurden mit Hilfe eines Kookurrenzfensters von 3 aufeinanderfolgenden Wörtern extrahiert. Die Dateien enthalten Tabellen in Form von Stefan http://www.collocations.de/software.html. Die Spalte l1 enthält das linke Wort, die Spalte l2 das rechte Wort. Das rechte Wort wird mit "_x" angehängt, wobei x die Position im Kontextfenster ist. Beispiel ""Aachen amtlich_3"" bedeutet, dass das Wort "amtlich" rechts von "Aachen" vorkam, mit zwei Wörtern dazwischen. Ebenfalls enthalten sind Häufigkeitszählungen des linken Wortes (f1), des rechten Wortes (f2, Positionen werden unterschieden), Zählungen des Paares f und die Statistik der logischen Wahrscheinlichkeit am.log.likelihood. Die Paare werden aus Platzgründen gefiltert, es werden nur Paare mit mehr als einem Vorkommen, mit individuellen Wortfrequenzen > 100 und einem Log-Likelihood-Verhältnis > 3,87 berücksichtigt.
(Tabellen folgen in Kürze)
Lexikon Induktionstest Datensatz
Die vergleichende Bewertung von Methoden zur zweisprachigen Lexikoninduktion wird durch das Fehlen einer gemeinsamen Bewertungsmethode und eines gemeinsamen Testdatensatzes erschwert. Zusammen mit Reinhard Rapp (Johannes Gutenberg Universität Mainz) schlagen wir einen gemeinsamen Testdatensatz zur Auswertung von lexikalischen Induktionsexperimenten vor. Wir hoffen, dass diese Daten als Grundlage für eine Standardauswertung dienen.
-
Kontakt IMS
Pfaffenwaldring 5 b, 70569 Stuttgart
- Weitere Informationen
- E-Mail schreiben
- Allgemeine Kontaktadresse des IMS
Webmaster des IMS
- E-Mail schreiben
- Bei Problemen mit den Webseiten kontaktieren Sie den Webmaster direkt