3 个月前

WIT:基于维基百科的多模态多语言机器学习图像文本数据集

WIT:基于维基百科的多模态多语言机器学习图像文本数据集

摘要

深度表示学习与预训练技术所带来的里程碑式进展,显著提升了下游自然语言处理(NLP)、信息检索(IR)以及视觉任务的性能。多模态建模技术旨在利用大规模高质量的视觉-语言数据集,学习图像与文本模态之间的互补信息。本文介绍了基于维基百科的图像-文本(Wikipedia-based Image Text, WIT)数据集(https://github.com/google-research-datasets/wit),以更好地支持多模态、多语言学习。WIT包含经过精心筛选的3760万条富含实体的图像-文本样本,覆盖108种维基百科语言中的1150万张唯一图像。其庞大的规模使其可作为多模态模型的预训练数据集,我们在图像-文本检索等下游任务中的实验结果验证了这一点。WIT具有四个主要且独特的优势:第一,就图像-文本样本数量而言,WIT是目前规模最大的多模态数据集,规模达到此前同类数据集的三倍(以本文撰写时为准);第二,WIT具有前所未有的大规模多语言特性,覆盖100多种语言(每种语言均包含至少1.2万条样本),并为大量图像提供了跨语言文本描述;第三,相较于以往数据集,WIT涵盖的概念与现实世界实体更加多样化;第四,WIT提供了一个极具挑战性的现实世界测试集,我们通过图像-文本检索任务的实证研究对此进行了说明。

代码仓库

clip-italian/clip-italian
jax
GitHub 中提及
google-research-datasets/wit
官方
GitHub 中提及
paullerner/viquae
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-witWIT-ALL
R@1: 0.346
R@5: 0.642
image-retrieval-on-witCC (Conceptual Captions)
R@1: 0.048
R@5: 0.122

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WIT:基于维基百科的多模态多语言机器学习图像文本数据集 | 论文 | HyperAI超神经