DIRE Datensatz

Datensatz aus Boleda et al. IWCS 2017

DIRE Dataset

Typ

Corpus

Beschreibung

Diese Seite stellt den Datensatz aus Boleda et al. IWCS 2017 zur Verfügung. Der Datensatz besteht aus einer Reihe von Dateien:

  • stimuli.train.gz, stimuli.valid.gz, stimuli.test.gz: Die eigentlichen Stimuli, eine Sequenz pro Zeile, für Trainingsmenge (40K Sequenzen), Entwicklungsmenge (5K Sequenzen), und Testmenge (10K Sequenzen). Größe: zusammen 4.5MB.
  • image.dm.gz: Die dazugehörigen Bildvektoren (aus Lazaridou et al. NAACL 2015). Größe: 167MB.
  • word.dm.gz: Die dazugehörigen Wortvektoren (aus Baroni et al. ACL 2014). Größe: 2.5MB.

Die Syntax für die Stimuli-Dateien ist wie folgt:

line      = query query_position || entities || stimuli
query     = category:modifier:modifier
entities = 6(entity )  
entity    = category_picindex
stimuli   = 12(modifier:entity )

Die Werte von "category" dienen als Schlüssel in word.dm, und die Werte von "entity" als Schlüssel in image.dm.gz.
Diese zwei Dateien sind einfache zeilenbasierte Hashtabellen mit der Syntax "key value", die Schlüssel auf Vektoren
abbilden.

Die Implementation von DIRE ist auf folgender Seite verfügbar: TBC.

Referenz

Living a discrete life in a continuous world: Reference in cross-modal entity tracking.
Proceedings of IWCS. Montpellier, France, 2017.
Gemma Boleda, Sebastian Padó, Nghia The Pham and Marco Baroni.

 

Kontakt IMS

Pfaffenwaldring 5 b, 70569 Stuttgart

 

Webmaster des IMS

Zum Seitenanfang