摘要

本文提出了一种端到端的检索增强型视觉语言模型——REVEAL，该模型能够将世界知识编码至大规模记忆中，并通过检索该记忆来回答知识密集型问题。REVEAL由四个关键组件构成：记忆模块、编码器、检索器和生成器。大规模记忆模块通过统一的编码器，将多种多模态世界知识（如图像-文本对、问答对、知识图谱三元组等）进行编码存储。检索器负责从记忆中找出与查询最相关的知识条目，生成器则将检索到的知识与输入查询进行融合，生成最终输出。本方法的一个关键创新在于，记忆模块、编码器、检索器和生成器均在海量数据上进行端到端的预训练。此外，该方法能够整合多样化的多模态知识源，实验证明这一特性带来了显著的性能提升。实验结果表明，REVEAL在视觉问答（Visual Question Answering）和图像字幕生成（Image Captioning）任务上均达到了当前最优水平。

源 PDF