4 个月前

BLIP:通过自举语言-图像预训练实现统一的视觉-语言理解和生成

BLIP:通过自举语言-图像预训练实现统一的视觉-语言理解和生成

摘要

视觉-语言预训练(VLP)在许多视觉-语言任务中提升了性能。然而,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外,性能的提升主要通过扩大数据集来实现,这些数据集中的图像-文本对是从网络上收集的带有噪声的数据,这并不是一个理想的监督来源。本文提出了一种新的VLP框架——BLIP,该框架能够灵活地应用于视觉-语言理解和生成任务。BLIP通过引导式生成标题有效利用了带噪声的网络数据,其中标题生成器生成合成标题,而过滤器则移除噪声标题。我们在广泛的视觉-语言任务上取得了最先进的结果,例如图像-文本检索(平均召回率@1提高2.7%)、图像描述(CIDEr分数提高2.8%)和视觉问答(VQA得分提高1.6%)。BLIP在直接以零样本方式迁移至视频-语言任务时也展示了强大的泛化能力。代码、模型和数据集已发布在 https://github.com/salesforce/BLIP。

基准测试

基准方法指标
image-captioning-on-nocaps-val-in-domainBLIP_ViT-L
CIDEr: 114.9
Pre-train (#images): 129M
SPICE: 15.2
image-captioning-on-nocaps-val-in-domainBLIP_CapFilt-L
CIDEr: 111.8
Pre-train (#images): 129M
SPICE: 14.9
image-captioning-on-nocaps-val-near-domainBLIP_ViT-L
CIDEr: 112.1
Pre-train (#images): 129M
SPICE: 14.9
image-captioning-on-nocaps-val-near-domainBLIP_CapFilt-L
CIDEr: 108.6
Pre-train (#images): 129M
SPICE: 14.8
image-captioning-on-nocaps-val-out-domainBLIP_CapFilt-L
CIDEr: 111.5
Pretrain (#images): 129M
SPICE: 14.2
image-captioning-on-nocaps-val-out-domainBLIP_ViT-L
CIDEr: 115.3
Pretrain (#images): 129M
SPICE: 14.4
image-captioning-on-nocaps-val-overallBLIP_CapFilt-L
CIDEr: 109.6
Pretrain (#images): 129M
SPICE: 14.7
image-captioning-on-nocaps-val-overallBLIP_ViT-L
CIDEr: 113.2
Pretrain (#images): 129M
SPICE: 14.8
image-text-matching-on-commercialadsdatasetBLIP
ADD(S) AUC: 83.51
open-vocabulary-attribute-detection-on-ovad-1BLIP
mean average precision: 24.3
visual-reasoning-on-nlvr2-testBLIP-129M
Accuracy: 83.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BLIP:通过自举语言-图像预训练实现统一的视觉-语言理解和生成 | 论文 | HyperAI超神经