
摘要
本文介绍了一个大规模的多模态和多语言数据集,旨在促进对语言中词汇在上下文中与图像关联的研究。该数据集由从电影字幕中选取的图像组成,这些图像能够明确地说明句子中表达的概念。该数据集具有重要价值,原因如下:(i) 图像与文本片段而非整个句子对齐;(ii) 每个文本片段和句子可能对应多个图像;(iii) 句子形式自由且接近真实世界;(iv) 平行文本为多语言。我们设计了一项填空游戏,以评估人类对我们数据集中自动图像选择过程的质量。我们展示了该数据集在两个自动化任务中的应用:(i) 填空;(ii) 词汇翻译。人类评估和自动模型的结果表明,图像是文本上下文的有用补充。该数据集将有助于研究词汇在自由形式句子中的视觉关联,并可在 https://doi.org/10.5281/zenodo.5034604 下通过创意共享许可获得。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multimodal-lexical-translation-on-multisubs | Multimodal BRNN | ALI: 0.81 |
| multimodal-lexical-translation-on-multisubs-1 | Multimodal BRNN | ALI: 0.80 |
| multimodal-lexical-translation-on-multisubs-2 | Multimodal BRNN | ALI: 0.81 |
| multimodal-lexical-translation-on-multisubs-3 | Multimodal BRNN | ALI: 0.94 |
| multimodal-text-prediction-on-multisubs | 9-gram LM with back-off | Accuracy: 30.35 Word similarity: 0.44 |