3 个月前

视觉-语言预训练在图像描述生成中的扩展

视觉-语言预训练在图像描述生成中的扩展

摘要

近年来,基于视觉-语言预训练(Vision-Language Pre-training, VLP)的图像描述生成任务取得了显著的性能提升。人们普遍认为,模型规模是推动这一进展的关键因素之一。然而,现有大多数研究仅聚焦于在约400万张图像上对中等规模的Transformer模型(如12层或24层)进行预训练。本文提出Lemon——一个大规模图像描述生成模型(LargE-scale iMage captiONer),并首次系统性地开展了针对图像描述任务中VLP模型缩放行为的实证研究。我们以当前最先进的VinVL模型作为基准模型,该模型由图像特征提取器和Transformer编码器组成。在模型规模方面,我们对Transformer进行了大规模的缩放,涵盖从1300万到6.75亿参数的多种配置;在数据规模方面,我们构建并使用了高达2亿对图像-文本数据,这些数据通过网页中图像的alt属性自动采集,命名为ALT200M。通过广泛的实验分析,我们系统地刻画了模型规模与预训练数据规模增加时,模型性能的变化趋势。此外,我们还对比了多种训练策略,尤其针对在大规模噪声数据上训练的有效性进行了深入探讨。实验结果表明,Lemon在多个主流图像描述基准测试中取得了新的最先进性能,涵盖COCO Caption、nocaps以及Conceptual Captions等。同时,我们还展示了Lemon在零样本(zero-shot)场景下能够生成包含长尾视觉概念的高质量描述,展现出强大的泛化能力。

基准测试

基准方法指标
image-captioning-on-coco-captionsLEMON
BLEU-4: 42.6
CIDER: 145.5
METEOR: 31.4
SPICE: 25.5
image-captioning-on-nocaps-val-in-domainLEMON_base
CIDEr: 107.7
Pre-train (#images): 200M
SPICE: 14.7
image-captioning-on-nocaps-val-in-domainLEMON_large
CIDEr: 116.9
Pre-train (#images): 200M
SPICE: 15.8
image-captioning-on-nocaps-val-near-domainLEMON_large
CIDEr: 113.3
Pre-train (#images): 200M
SPICE: 15.1
image-captioning-on-nocaps-val-out-domainLEMON_large
CIDEr: 111.3
Pretrain (#images): 200M
SPICE: 14.0
image-captioning-on-nocaps-val-overallLEMON_large
CIDEr: 113.4
Pretrain (#images): 200M
SPICE: 15.0
image-captioning-on-nocaps-xd-entireMicrosoft Cognitive Services team
B1: 85.62
B2: 71.36
B3: 53.62
B4: 34.65
CIDEr: 114.25
METEOR: 31.27
ROUGE-L: 61.2
SPICE: 14.85

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉-语言预训练在图像描述生成中的扩展 | 论文 | HyperAI超神经