
摘要
外部知识视觉问答(OK-VQA)要求智能体在理解图像的基础上,利用整个网络中的相关知识,并整合全部信息以回答问题。以往大多数方法通过在多模态空间中先融合图像与问题来处理该任务,然而这种融合方式难以灵活地与海量外部知识进一步结合。本文提出一种面向OK-VQA任务的新型范式:将图像转换为纯文本形式,从而实现自然语言空间中的知识段落检索与生成式问答。该范式充分利用了大规模知识库的丰富信息以及预训练语言模型的强大能力。为此,我们提出了一个“转换-检索-生成”(Transform-Retrieve-Generate, TRiG)框架,该框架可与不同的图像到文本模型及文本知识库无缝集成,具备良好的可插拔性。实验结果表明,TRiG框架在性能上显著优于所有现有的最先进监督学习方法,绝对提升幅度至少达到11.1%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-ok-vqa | TRiG (T5-Large) | Accuracy: 50.50 |