Position innerhalb des Seitenbaumes

Institut für Maschinelle Sprachverarbeitung
Forschung
Ressourcen
Korpora
DIRE Dataset

DIRE Datensatz

Datensatz aus Boleda et al. IWCS 2017

DIRE Dataset

Typ

Corpus

Beschreibung

Diese Seite stellt den Datensatz aus Boleda et al. IWCS 2017 zur Verfügung. Der Datensatz besteht aus einer Reihe von Dateien:

stimuli.train.gz, stimuli.valid.gz, stimuli.test.gz: Die eigentlichen Stimuli, eine Sequenz pro Zeile, für Trainingsmenge (40K Sequenzen), Entwicklungsmenge (5K Sequenzen), und Testmenge (10K Sequenzen). Größe: zusammen 4.5MB.
image.dm.gz: Die dazugehörigen Bildvektoren (aus Lazaridou et al. NAACL 2015). Größe: 167MB.
word.dm.gz: Die dazugehörigen Wortvektoren (aus Baroni et al. ACL 2014). Größe: 2.5MB.

Die Syntax für die Stimuli-Dateien ist wie folgt:

line      = query query_position || entities || stimuli
query     = category:modifier:modifier
entities  = 6(entity )  
entity    = category_picindex
stimuli   = 12(modifier:entity )

Die Werte von "category" dienen als Schlüssel in word.dm, und die Werte von "entity" als Schlüssel in image.dm.gz.
Diese zwei Dateien sind einfache zeilenbasierte Hashtabellen mit der Syntax "key value", die Schlüssel auf Vektoren
abbilden.

Die Implementation von DIRE ist auf folgender Seite verfügbar: TBC.

Referenz

Living a discrete life in a continuous world: Reference in cross-modal entity tracking.
Proceedings of IWCS. Montpellier, France, 2017.
Gemma Boleda, Sebastian Padó, Nghia The Pham and Marco Baroni.

Weitere Informationen
E-Mail schreiben
Allgemeine Kontaktadresse des IMS

E-Mail schreiben
Bei Problemen mit den Webseiten kontaktieren Sie den Webmaster direkt

DIRE Datensatz

DIRE Dataset

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

Webmaster des IMS

Zielgruppe

Formalia

Services

Organisation

DIRE Datensatz

DIRE Dataset

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

Webmaster des IMS

So erreichen Sie uns

Zielgruppe

Formalia

Services

Organisation