3 个月前

SimVLM:基于弱监督的简单视觉语言模型预训练

SimVLM:基于弱监督的简单视觉语言模型预训练

摘要

随着视觉与文本表示联合建模技术的最新进展,视觉-语言预训练(Vision-Language Pretraining, VLP)在众多多模态下游任务中取得了令人瞩目的性能表现。然而,现有方法对昂贵标注数据的依赖——包括清晰的图像标题和区域标签——严重限制了其可扩展性,并因引入多个数据集特异性目标而使预训练过程变得复杂。针对这一问题,本文提出一种简约化的预训练框架——简单视觉语言模型(Simple Visual Language Model, SimVLM),有效缓解了上述限制。与以往方法不同,SimVLM通过利用大规模弱监督信号降低训练复杂度,并采用单一前缀语言建模目标实现端到端训练。该模型无需额外数据或任务特定的定制化设计,即可显著超越以往预训练方法,在广泛的判别性与生成性视觉-语言基准任务上取得新的最先进性能,涵盖视觉问答(VQA,提升3.74%的VQA得分)、NLVR2(准确率提升1.17%)、SNLI-VE(准确率提升1.37%)以及图像字幕生成任务(平均CIDEr得分提升10.1%)。此外,我们进一步验证了SimVLM具备强大的泛化能力与迁移能力,能够实现零样本推理,包括开放式视觉问答和跨模态迁移等任务。

代码仓库

yulong-XJTU/SimVLM
pytorch
GitHub 中提及
FerryHuang/SimVLM
pytorch
GitHub 中提及

基准测试

基准方法指标
image-captioning-on-coco-captionsSimVLM
BLEU-4: 40.6
CIDER: 143.3
METEOR: 33.4
SPICE: 25.4
image-captioning-on-nocaps-entireSingle Model
B1: 83.78
B2: 68.86
B3: 51.06
B4: 32.2
CIDEr: 110.31
METEOR: 30.55
ROUGE-L: 59.86
SPICE: 14.49
image-captioning-on-nocaps-in-domainSingle Model
B1: 84.64
B2: 70.0
B3: 52.96
B4: 34.66
CIDEr: 108.98
METEOR: 31.97
ROUGE-L: 61.01
SPICE: 14.6
image-captioning-on-nocaps-near-domainSingle Model
B1: 84.36
B2: 69.83
B3: 52.42
B4: 33.74
CIDEr: 110.76
METEOR: 30.97
ROUGE-L: 60.46
SPICE: 14.61
image-captioning-on-nocaps-out-of-domainSingle Model
B1: 80.89
B2: 64.21
B3: 44.38
B4: 24.47
CIDEr: 109.49
METEOR: 27.91
ROUGE-L: 56.69
SPICE: 13.89
image-captioning-on-nocaps-val-in-domainSimVLM
CIDEr: 113.7
Pre-train (#images): 1.8B
SPICE: -
image-captioning-on-nocaps-val-near-domainSimVLM
CIDEr: 110.9
Pre-train (#images): 1.8B
SPICE: -
image-captioning-on-nocaps-val-out-domainSimVLM
CIDEr: 115.2
Pretrain (#images): 1.8B
SPICE: -
image-captioning-on-nocaps-val-overallSimVLM
CIDEr: 112.2
Pretrain (#images): 1.8B
SPICE: -
visual-entailment-on-snli-ve-testSimVLM
Accuracy: 86.32
visual-entailment-on-snli-ve-valSimVLM
Accuracy: 86.21
visual-question-answering-on-vqa-v2-test-devSimVLM
Accuracy: 80.03
visual-question-answering-on-vqa-v2-test-stdSimVLM
overall: 80.34
visual-reasoning-on-nlvr2-devSimVLM
Accuracy: 84.53
visual-reasoning-on-nlvr2-testSimVLM
Accuracy: 85.15

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SimVLM:基于弱监督的简单视觉语言模型预训练 | 论文 | HyperAI超神经