3 个月前

概念12M:将网络规模图像-文本预训练推向长尾视觉概念识别

概念12M:将网络规模图像-文本预训练推向长尾视觉概念识别

摘要

大规模图像字幕生成与视觉问答数据集的可用性,显著推动了视觉-语言预训练近年来的进展。然而,这些数据集在收集过程中往往沿用了其原始目标任务(如图像字幕生成)的过度严格要求,从而限制了数据集的规模与多样性。为进一步拓展视觉-语言预训练数据的边界,本文在Conceptual Captions 3M(CC3M)[Sharma等,2018]所采用的数据收集流程基础上,放宽了数据采集标准,提出了Conceptual 12M(CC12M)数据集,该数据集包含1200万对图像-文本数据,专为视觉-语言预训练而设计。我们对CC12M数据集进行了系统分析,并在多个下游任务上将其与CC3M进行了对比评估,重点关注长尾视觉识别性能。实验结果清晰表明,扩大预训练数据规模对视觉-语言任务具有显著提升作用,相关模型在NoCaps和Conceptual Captions两个基准测试上均取得了新的最先进(SOTA)性能。

代码仓库

gicheonkang/gst-visdial
pytorch
GitHub 中提及
facebookresearch/meru
pytorch
GitHub 中提及

基准测试

基准方法指标
image-captioning-on-nocaps-val-in-domainEnc-Dec
CIDEr: 92.6
Pre-train (#images): 15M
SPICE: 12.5
image-captioning-on-nocaps-val-near-domainEnc-Dec
CIDEr: 88.3
SPICE: 12.1
image-captioning-on-nocaps-val-out-domainEnc-Dec
CIDEr: 94.5
SPICE: 11.9
image-captioning-on-nocaps-val-overallEnc-Dec
CIDEr: 90.2
SPICE: 12.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
概念12M:将网络规模图像-文本预训练推向长尾视觉概念识别 | 论文 | HyperAI超神经