HyperAIHyperAI

Command Palette

Search for a command to run...

REVEAL:基于多源多模态知识记忆的检索增强型视觉-语言预训练

Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi

摘要

本文提出了一种端到端的检索增强型视觉语言模型——REVEAL,该模型能够将世界知识编码至大规模记忆中,并通过检索该记忆来回答知识密集型问题。REVEAL由四个关键组件构成:记忆模块、编码器、检索器和生成器。大规模记忆模块通过统一的编码器,将多种多模态世界知识(如图像-文本对、问答对、知识图谱三元组等)进行编码存储。检索器负责从记忆中找出与查询最相关的知识条目,生成器则将检索到的知识与输入查询进行融合,生成最终输出。本方法的一个关键创新在于,记忆模块、编码器、检索器和生成器均在海量数据上进行端到端的预训练。此外,该方法能够整合多样化的多模态知识源,实验证明这一特性带来了显著的性能提升。实验结果表明,REVEAL在视觉问答(Visual Question Answering)和图像字幕生成(Image Captioning)任务上均达到了当前最优水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
REVEAL:基于多源多模态知识记忆的检索增强型视觉-语言预训练 | 论文 | HyperAI超神经