4 个月前

MultiSubs:大规模多模态和多语言数据集

MultiSubs:大规模多模态和多语言数据集

摘要

本文介绍了一个大规模的多模态和多语言数据集,旨在促进对语言中词汇在上下文中与图像关联的研究。该数据集由从电影字幕中选取的图像组成,这些图像能够明确地说明句子中表达的概念。该数据集具有重要价值,原因如下:(i) 图像与文本片段而非整个句子对齐;(ii) 每个文本片段和句子可能对应多个图像;(iii) 句子形式自由且接近真实世界;(iv) 平行文本为多语言。我们设计了一项填空游戏,以评估人类对我们数据集中自动图像选择过程的质量。我们展示了该数据集在两个自动化任务中的应用:(i) 填空;(ii) 词汇翻译。人类评估和自动模型的结果表明,图像是文本上下文的有用补充。该数据集将有助于研究词汇在自由形式句子中的视觉关联,并可在 https://doi.org/10.5281/zenodo.5034604 下通过创意共享许可获得。

代码仓库

基准测试

基准方法指标
multimodal-lexical-translation-on-multisubsMultimodal BRNN
ALI: 0.81
multimodal-lexical-translation-on-multisubs-1Multimodal BRNN
ALI: 0.80
multimodal-lexical-translation-on-multisubs-2Multimodal BRNN
ALI: 0.81
multimodal-lexical-translation-on-multisubs-3Multimodal BRNN
ALI: 0.94
multimodal-text-prediction-on-multisubs9-gram LM with back-off
Accuracy: 30.35
Word similarity: 0.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MultiSubs:大规模多模态和多语言数据集 | 论文 | HyperAI超神经