4 个月前

R-VQA:利用语义注意力学习视觉关系事实以实现视觉问答

R-VQA:利用语义注意力学习视觉关系事实以实现视觉问答

摘要

近期,视觉问答(Visual Question Answering, VQA)作为多模态学习中的一项重要任务崭露头角,因为它需要同时理解视觉和文本模态。现有的方法主要依赖于提取图像和问题的特征,通过多模态融合或注意力机制来学习它们的联合特征嵌入。一些最近的研究利用外部独立于VQA的模型来检测图像中的候选实体或属性,这些实体或属性作为补充的语义知识对VQA任务有所帮助。然而,这些候选实体或属性可能与VQA任务无关,并且其语义容量有限。为了更好地利用图像中的语义知识,我们提出了一种新的框架来学习用于VQA的视觉关系事实。具体而言,我们在Visual Genome数据集的基础上通过一个语义相似度模块构建了一个关系-视觉问答(Relation-VQA, R-VQA)数据集,其中每个数据条目包括一张图像、一个对应的问题、一个正确答案以及一个支持的关系事实。随后,我们采用了一个定义明确的关系检测器来预测与视觉问题相关的关系事实。此外,我们还提出了一种由视觉注意力和语义注意力依次组成的多步注意力模型,以提取相关的视觉知识和语义知识。我们在两个基准数据集上进行了全面的实验,结果表明我们的模型达到了最先进的性能,并验证了考虑视觉关系事实的好处。

代码仓库

lupantech/rvqa
官方
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-coco-visual-1RelAtt
Percentage correct: 69.60
visual-question-answering-on-coco-visual-4RelAtt
Percentage correct: 65.69

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
R-VQA:利用语义注意力学习视觉关系事实以实现视觉问答 | 论文 | HyperAI超神经