Institut

Studium

Forschung


 

DIRE dataset

Typ Corpus
Titel DIRE dataset

Beschreibung

Diese Seite stellt den Datensatz aus Boleda et al. IWCS 2017 zur Verfügung. Der Datensatz besteht aus einer Reihe von Dateien:

  • stimuli.train.gz, stimuli.valid.gz, stimuli.test.gz: Die eigentlichen Stimuli, eine Sequenz pro Zeile, für Trainingsmenge (40K Sequenzen), Entwicklungsmenge (5K Sequenzen), und Testmenge (10K Sequenzen). Größe: zusammen 4.5MB.
  • image.dm.gz: Die dazugehörigen Bildvektoren (aus Lazaridou et al. NAACL 2015). Größe: 167MB.
  • word.dm.gz: Die dazugehörigen Wortvektoren (aus Baroni et al. ACL 2014). Größe: 2.5MB.

Die Syntax für die Stimuli-Dateien ist wie folgt:

line      = query query_position || entities || stimuli
query     = category:modifier:modifier
entities = 6(entity )  
entity    = category_picindex
stimuli   = 12(modifier:entity )

Die Werte von "category" dienen als Schlüssel in word.dm, und die Werte von "entity" als Schlüssel in image.dm.gz.
Diese zwei Dateien sind einfache zeilenbasierte Hashtabellen mit der Syntax "key value", die Schlüssel auf Vektoren
abbilden.

Die Implementation von DIRE ist auf folgender Seite verfügbar: TBC.


Referenz

Living a discrete life in a continuous world: Reference in cross-modal entity tracking.
Proceedings of IWCS. Montpellier, France, 2017.
Gemma Boleda, Sebastian Padó, Nghia The Pham and Marco Baroni.