6 个月前

Soravit Changpinyo Piyush Sharma Nan Ding Radu Soricut

摘要

大规模图像字幕生成与视觉问答数据集的可用性，显著推动了视觉-语言预训练近年来的进展。然而，这些数据集在收集过程中往往沿用了其原始目标任务（如图像字幕生成）的过度严格要求，从而限制了数据集的规模与多样性。为进一步拓展视觉-语言预训练数据的边界，本文在Conceptual Captions 3M（CC3M）[Sharma等，2018]所采用的数据收集流程基础上，放宽了数据采集标准，提出了Conceptual 12M（CC12M）数据集，该数据集包含1200万对图像-文本数据，专为视觉-语言预训练而设计。我们对CC12M数据集进行了系统分析，并在多个下游任务上将其与CC3M进行了对比评估，重点关注长尾视觉识别性能。实验结果清晰表明，扩大预训练数据规模对视觉-语言任务具有显著提升作用，相关模型在NoCaps和Conceptual Captions两个基准测试上均取得了新的最先进（SOTA）性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Soravit Changpinyo Piyush Sharma Nan Ding Radu Soricut

摘要

大规模图像字幕生成与视觉问答数据集的可用性，显著推动了视觉-语言预训练近年来的进展。然而，这些数据集在收集过程中往往沿用了其原始目标任务（如图像字幕生成）的过度严格要求，从而限制了数据集的规模与多样性。为进一步拓展视觉-语言预训练数据的边界，本文在Conceptual Captions 3M（CC3M）[Sharma等，2018]所采用的数据收集流程基础上，放宽了数据采集标准，提出了Conceptual 12M（CC12M）数据集，该数据集包含1200万对图像-文本数据，专为视觉-语言预训练而设计。我们对CC12M数据集进行了系统分析，并在多个下游任务上将其与CC3M进行了对比评估，重点关注长尾视觉识别性能。实验结果清晰表明，扩大预训练数据规模对视觉-语言任务具有显著提升作用，相关模型在NoCaps和Conceptual Captions两个基准测试上均取得了新的最先进（SOTA）性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供