
摘要
视觉-语言预训练(VLP)在许多视觉-语言任务中提升了性能。然而,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外,性能的提升主要通过扩大数据集来实现,这些数据集中的图像-文本对是从网络上收集的带有噪声的数据,这并不是一个理想的监督来源。本文提出了一种新的VLP框架——BLIP,该框架能够灵活地应用于视觉-语言理解和生成任务。BLIP通过引导式生成标题有效利用了带噪声的网络数据,其中标题生成器生成合成标题,而过滤器则移除噪声标题。我们在广泛的视觉-语言任务上取得了最先进的结果,例如图像-文本检索(平均召回率@1提高2.7%)、图像描述(CIDEr分数提高2.8%)和视觉问答(VQA得分提高1.6%)。BLIP在直接以零样本方式迁移至视频-语言任务时也展示了强大的泛化能力。代码、模型和数据集已发布在 https://github.com/salesforce/BLIP。
代码仓库
salesforce/lavis
官方
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
towhee-io/towhee
pytorch
pwc-1/Paper-8/tree/main/blip
mindspore
salesforce/blip
pytorch
GitHub 中提及
ninatu/howtocaption
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-nocaps-val-in-domain | BLIP_ViT-L | CIDEr: 114.9 Pre-train (#images): 129M SPICE: 15.2 |
| image-captioning-on-nocaps-val-in-domain | BLIP_CapFilt-L | CIDEr: 111.8 Pre-train (#images): 129M SPICE: 14.9 |
| image-captioning-on-nocaps-val-near-domain | BLIP_ViT-L | CIDEr: 112.1 Pre-train (#images): 129M SPICE: 14.9 |
| image-captioning-on-nocaps-val-near-domain | BLIP_CapFilt-L | CIDEr: 108.6 Pre-train (#images): 129M SPICE: 14.8 |
| image-captioning-on-nocaps-val-out-domain | BLIP_CapFilt-L | CIDEr: 111.5 Pretrain (#images): 129M SPICE: 14.2 |
| image-captioning-on-nocaps-val-out-domain | BLIP_ViT-L | CIDEr: 115.3 Pretrain (#images): 129M SPICE: 14.4 |
| image-captioning-on-nocaps-val-overall | BLIP_CapFilt-L | CIDEr: 109.6 Pretrain (#images): 129M SPICE: 14.7 |
| image-captioning-on-nocaps-val-overall | BLIP_ViT-L | CIDEr: 113.2 Pretrain (#images): 129M SPICE: 14.8 |
| image-text-matching-on-commercialadsdataset | BLIP | ADD(S) AUC: 83.51 |
| open-vocabulary-attribute-detection-on-ovad-1 | BLIP | mean average precision: 24.3 |
| visual-reasoning-on-nlvr2-test | BLIP-129M | Accuracy: 83.09 |