3 个月前

细粒度视觉-语言理解中的进展度量

细粒度视觉-语言理解中的进展度量

摘要

尽管在大规模网络图像-文本数据上进行预训练已显著推动了众多视觉-语言(Vision-and-Language, V&L)任务的进展,但近期研究表明,现有预训练模型在“细粒度”理解方面仍存在明显不足,例如难以识别图像中的关系、动词及数字等语义信息。这一局限引发了学术界对开发新型评估基准或模型以提升此类能力的广泛关注。为更深入地理解并量化该方向的进展,我们对四种具有代表性的V&L模型在四个细粒度评估基准上进行了系统性比较。分析结果表明,X-VLM(Zeng等,2022)在各项任务中均显著优于其他基线模型;同时我们发现,模型架构上的创新对性能提升的影响,甚至超过单纯扩大网络数据的规模,且在某些情况下,数据规模的增加反而会导致性能下降。通过对X-VLM的深入探究,我们进一步揭示了新颖损失函数设计与丰富多源数据对于学习细粒度视觉-语言能力的关键作用。最后,我们分析了模型的训练动态,发现部分任务的性能在训练初期即达到峰值,或在训练过程中出现显著波动,始终未能实现稳定收敛。

代码仓库

e-bug/weak-relation-vlm
pytorch
GitHub 中提及
e-bug/fine-grained-evals
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-reasoning-on-winogroundBLIP 129M (CapFilt/L)
Group Score: 12.2
Image Score: 15.2
Text Score: 34.7
visual-reasoning-on-winogroundX-VLM 4M
Group Score: 21.5
Image Score: 26.7
Text Score: 44.0
visual-reasoning-on-winogroundPEVL 14M
Group Score: 12.2
Image Score: 15.7
Text Score: 33.2
visual-reasoning-on-winogroundX-VLM 16M
Group Score: 21.2
Image Score: 24.5
Text Score: 46.7
visual-reasoning-on-winogroundBLIP 129M
Group Score: 11.7
Image Score: 15.0
Text Score: 35.5
visual-reasoning-on-winogroundALBEF 14M
Group Score: 12.7
Image Score: 16.2
Text Score: 32.5
visual-reasoning-on-winogroundBLIP 14M
Group Score: 14.5
Image Score: 18.5
Text Score: 36.5
visual-reasoning-on-winogroundBLIP-ViT/L 129M
Group Score: 12.2
Image Score: 14.5
Text Score: 34.7
visual-reasoning-on-winogroundALBEF 4M
Group Score: 11.0
Image Score: 15.5
Text Score: 29.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
细粒度视觉-语言理解中的进展度量 | 论文 | HyperAI超神经