DIRE Dataset
- Typ
-
Corpus
- Beschreibung
-
Diese Seite stellt den Datensatz aus Boleda et al. IWCS 2017 zur Verfügung. Der Datensatz besteht aus einer Reihe von Dateien:
- stimuli.train.gz, stimuli.valid.gz, stimuli.test.gz: Die eigentlichen Stimuli, eine Sequenz pro Zeile, für Trainingsmenge (40K Sequenzen), Entwicklungsmenge (5K Sequenzen), und Testmenge (10K Sequenzen). Größe: zusammen 4.5MB.
- image.dm.gz: Die dazugehörigen Bildvektoren (aus Lazaridou et al. NAACL 2015). Größe: 167MB.
- word.dm.gz: Die dazugehörigen Wortvektoren (aus Baroni et al. ACL 2014). Größe: 2.5MB.
Die Syntax für die Stimuli-Dateien ist wie folgt:
line = query query_position || entities || stimuli
query = category:modifier:modifier
entities = 6(entity )
entity = category_picindex
stimuli = 12(modifier:entity )Die Werte von "category" dienen als Schlüssel in word.dm, und die Werte von "entity" als Schlüssel in image.dm.gz.
Diese zwei Dateien sind einfache zeilenbasierte Hashtabellen mit der Syntax "key value", die Schlüssel auf Vektoren
abbilden.Die Implementation von DIRE ist auf folgender Seite verfügbar: TBC.
- Referenz
-
Living a discrete life in a continuous world: Reference in cross-modal entity tracking.
Proceedings of IWCS. Montpellier, France, 2017.
Gemma Boleda, Sebastian Padó, Nghia The Pham and Marco Baroni.
Kontakt IMS
Pfaffenwaldring 5 b, 70569 Stuttgart
- Weitere Informationen
- E-Mail schreiben
- Allgemeine Kontaktadresse des IMS
Webmaster des IMS
- E-Mail schreiben
- Bei Problemen mit den Webseiten kontaktieren Sie den Webmaster direkt