
摘要
尽管在大规模网络图像-文本数据上进行预训练已显著推动了众多视觉-语言(Vision-and-Language, V&L)任务的进展,但近期研究表明,现有预训练模型在“细粒度”理解方面仍存在明显不足,例如难以识别图像中的关系、动词及数字等语义信息。这一局限引发了学术界对开发新型评估基准或模型以提升此类能力的广泛关注。为更深入地理解并量化该方向的进展,我们对四种具有代表性的V&L模型在四个细粒度评估基准上进行了系统性比较。分析结果表明,X-VLM(Zeng等,2022)在各项任务中均显著优于其他基线模型;同时我们发现,模型架构上的创新对性能提升的影响,甚至超过单纯扩大网络数据的规模,且在某些情况下,数据规模的增加反而会导致性能下降。通过对X-VLM的深入探究,我们进一步揭示了新颖损失函数设计与丰富多源数据对于学习细粒度视觉-语言能力的关键作用。最后,我们分析了模型的训练动态,发现部分任务的性能在训练初期即达到峰值,或在训练过程中出现显著波动,始终未能实现稳定收敛。
代码仓库
e-bug/weak-relation-vlm
pytorch
GitHub 中提及
e-bug/fine-grained-evals
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-reasoning-on-winoground | BLIP 129M (CapFilt/L) | Group Score: 12.2 Image Score: 15.2 Text Score: 34.7 |
| visual-reasoning-on-winoground | X-VLM 4M | Group Score: 21.5 Image Score: 26.7 Text Score: 44.0 |
| visual-reasoning-on-winoground | PEVL 14M | Group Score: 12.2 Image Score: 15.7 Text Score: 33.2 |
| visual-reasoning-on-winoground | X-VLM 16M | Group Score: 21.2 Image Score: 24.5 Text Score: 46.7 |
| visual-reasoning-on-winoground | BLIP 129M | Group Score: 11.7 Image Score: 15.0 Text Score: 35.5 |
| visual-reasoning-on-winoground | ALBEF 14M | Group Score: 12.7 Image Score: 16.2 Text Score: 32.5 |
| visual-reasoning-on-winoground | BLIP 14M | Group Score: 14.5 Image Score: 18.5 Text Score: 36.5 |
| visual-reasoning-on-winoground | BLIP-ViT/L 129M | Group Score: 12.2 Image Score: 14.5 Text Score: 34.7 |
| visual-reasoning-on-winoground | ALBEF 4M | Group Score: 11.0 Image Score: 15.5 Text Score: 29.2 |