
摘要
预训练的视觉-语言模型在图像与文本相关任务中已展现出当前最先进的性能,涵盖视觉问答(Visual Question Answering, VQA)等典型场景。然而,这些模型是否具备回答不仅依赖视觉内容理解,更需依赖知识密集型与信息检索型推理的问题,仍不明确。在本研究中,我们提出了InfoSeek——一个专为信息寻求类问题设计的视觉问答数据集,其问题无法仅通过常识知识回答。基于InfoSeek,我们系统评估了多种预训练视觉问答模型,并深入分析其性能特征。研究结果表明,当前最先进的多模态预训练模型(如PaLI-X、BLIP2等)在应对视觉信息寻求类问题时仍面临显著挑战;然而,通过在InfoSeek数据集上进行微调,模型能够有效调用其预训练阶段所学习到的细粒度知识,从而提升回答能力。此外,我们进一步证明,精准的视觉实体识别可通过检索相关文档来显著提升模型在InfoSeek上的表现,表明该任务仍存在巨大的优化空间。
代码仓库
open-vision-language/infoseek
GitHub 中提及
edchengg/infoseek_eval
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-vqa-on-infoseek | CLIP + FiD | Accuracy: 20.9 |
| visual-question-answering-vqa-on-infoseek | CLIP + PaLM (540B) | Accuracy: 20.4 |
| visual-question-answering-vqa-on-infoseek | PaLI | Accuracy: 19.7 |