4 个月前

层次化问题-图像协同注意力机制用于视觉问答

层次化问题-图像协同注意力机制用于视觉问答

摘要

近期有多项研究提出了用于视觉问答(Visual Question Answering, VQA)的注意力模型,这些模型生成空间图以突出图像中与回答问题相关的区域。本文认为,除了建模“看哪里”或视觉注意力之外,同样重要的是建模“听哪些词”或问题注意力。我们提出了一种新颖的协同注意力模型,该模型同时对图像和问题的注意力进行推理。此外,我们的模型通过一种新颖的一维卷积神经网络(1-dimensional Convolutional Neural Network, CNN)以层次化的方式对问题(并通过协同注意力机制对图像)进行推理。我们的模型在VQA数据集上的表现从60.3%提升至60.5%,在COCO-QA数据集上的表现从61.6%提升至63.3%。通过使用ResNet,性能进一步提升至VQA数据集的62.1%和COCO-QA数据集的65.4%。

代码仓库

karunraju/VQA
pytorch
GitHub 中提及
WillSuen/VQA
tf
GitHub 中提及
phisad/keras-hicoatt
tf
GitHub 中提及
jiasenlu/HieCoAttenVQA
官方
pytorch
GitHub 中提及
miohana/vqa
tf
GitHub 中提及
SkyOL5/VQA-CoAttention
pytorch
GitHub 中提及
arya46/VQA_HieCoAtt
tf
GitHub 中提及

基准测试

基准方法指标
visual-dialog-on-visdial-v09-valHieCoAtt-QI
MRR: 57.88
Mean Rank: 5.84
R@1: 43.51
R@10: 83.96
R@5: 74.49
visual-question-answering-on-coco-visual-1HQI+ResNet
Percentage correct: 66.1
visual-question-answering-on-coco-visual-4HQI+ResNet
Percentage correct: 62.1
visual-question-answering-on-vqa-v1-test-devHieCoAtt (ResNet)
Accuracy: 61.8
visual-question-answering-on-vqa-v1-test-stdHieCoAtt (ResNet)
Accuracy: 62.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
层次化问题-图像协同注意力机制用于视觉问答 | 论文 | HyperAI超神经