
摘要
视觉问答(VQA)是视觉与语言推理的标志性任务,在零样本设置下具有挑战性。我们提出了一种模块化的零样本VQA框架——即插即用视觉问答(PNP-VQA)。与大多数现有方法不同,这些方法需要对预训练语言模型(PLMs)进行大量适应以处理视觉模态,而PNP-VQA则无需对PLMs进行额外训练。相反,我们建议使用自然语言和网络解释作为中间表示,将预训练模型连接在一起。首先,我们生成由问题引导的信息丰富的图像描述,然后将这些描述传递给PLM作为回答问题的上下文。PNP-VQA在零样本VQAv2和GQA上超越了端到端训练的基线模型,取得了最先进的结果。在拥有110亿参数的情况下,它在VQAv2上的表现超过了800亿参数的Flamingo模型8.5%。而在使用7.38亿PLM参数时,PNP-VQA在GQA上的表现比使用7.4亿PLM参数的FewVLM模型提高了9.1%。代码已发布在https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa。
代码仓库
salesforce/lavis
官方
pytorch
GitHub 中提及
abril4416/kgen_vqa
pytorch
GitHub 中提及
Tzoulio/Large_Models_Dialogue_for_Active_Perception
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-gqa-test-dev | PNP-VQA | Accuracy: 41.9 |
| visual-question-answering-on-ok-vqa | PNP-VQA | Accuracy: 35.9 |
| visual-question-answering-on-vqa-v2-test-dev | PNP-VQA | Accuracy: 64.8 |
| visual-question-answering-on-vqa-v2-val | PNP-VQA | Accuracy: 63.3 |