3 个月前

预训练视觉与语言模型能否回答视觉信息查询问题?

预训练视觉与语言模型能否回答视觉信息查询问题?

摘要

预训练的视觉-语言模型在图像与文本相关任务中已展现出当前最先进的性能,涵盖视觉问答(Visual Question Answering, VQA)等典型场景。然而,这些模型是否具备回答不仅依赖视觉内容理解,更需依赖知识密集型与信息检索型推理的问题,仍不明确。在本研究中,我们提出了InfoSeek——一个专为信息寻求类问题设计的视觉问答数据集,其问题无法仅通过常识知识回答。基于InfoSeek,我们系统评估了多种预训练视觉问答模型,并深入分析其性能特征。研究结果表明,当前最先进的多模态预训练模型(如PaLI-X、BLIP2等)在应对视觉信息寻求类问题时仍面临显著挑战;然而,通过在InfoSeek数据集上进行微调,模型能够有效调用其预训练阶段所学习到的细粒度知识,从而提升回答能力。此外,我们进一步证明,精准的视觉实体识别可通过检索相关文档来显著提升模型在InfoSeek上的表现,表明该任务仍存在巨大的优化空间。

代码仓库

edchengg/infoseek_eval
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-vqa-on-infoseekCLIP + FiD
Accuracy: 20.9
visual-question-answering-vqa-on-infoseekCLIP + PaLM (540B)
Accuracy: 20.4
visual-question-answering-vqa-on-infoseekPaLI
Accuracy: 19.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
预训练视觉与语言模型能否回答视觉信息查询问题? | 论文 | HyperAI超神经