3 个月前

REVEAL:基于多源多模态知识记忆的检索增强型视觉-语言预训练

REVEAL:基于多源多模态知识记忆的检索增强型视觉-语言预训练

摘要

本文提出了一种端到端的检索增强型视觉语言模型——REVEAL,该模型能够将世界知识编码至大规模记忆中,并通过检索该记忆来回答知识密集型问题。REVEAL由四个关键组件构成:记忆模块、编码器、检索器和生成器。大规模记忆模块通过统一的编码器,将多种多模态世界知识(如图像-文本对、问答对、知识图谱三元组等)进行编码存储。检索器负责从记忆中找出与查询最相关的知识条目,生成器则将检索到的知识与输入查询进行融合,生成最终输出。本方法的一个关键创新在于,记忆模块、编码器、检索器和生成器均在海量数据上进行端到端的预训练。此外,该方法能够整合多样化的多模态知识源,实验证明这一特性带来了显著的性能提升。实验结果表明,REVEAL在视觉问答(Visual Question Answering)和图像字幕生成(Image Captioning)任务上均达到了当前最优水平。

基准测试

基准方法指标
visual-question-answering-on-ok-vqaReVeaL WIT + CC12M + Wikidata + VQA-2
Accuracy: 59.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
REVEAL:基于多源多模态知识记忆的检索增强型视觉-语言预训练 | 论文 | HyperAI超神经