
摘要
近期有多项研究提出了用于视觉问答(Visual Question Answering, VQA)的注意力模型,这些模型生成空间图以突出图像中与回答问题相关的区域。本文认为,除了建模“看哪里”或视觉注意力之外,同样重要的是建模“听哪些词”或问题注意力。我们提出了一种新颖的协同注意力模型,该模型同时对图像和问题的注意力进行推理。此外,我们的模型通过一种新颖的一维卷积神经网络(1-dimensional Convolutional Neural Network, CNN)以层次化的方式对问题(并通过协同注意力机制对图像)进行推理。我们的模型在VQA数据集上的表现从60.3%提升至60.5%,在COCO-QA数据集上的表现从61.6%提升至63.3%。通过使用ResNet,性能进一步提升至VQA数据集的62.1%和COCO-QA数据集的65.4%。
代码仓库
karunraju/VQA
pytorch
GitHub 中提及
WillSuen/VQA
tf
GitHub 中提及
phisad/keras-hicoatt
tf
GitHub 中提及
jiasenlu/HieCoAttenVQA
官方
pytorch
GitHub 中提及
ritvikshrivastava/ADL_VQA_Tensorflow2
tf
GitHub 中提及
miohana/vqa
tf
GitHub 中提及
SkyOL5/VQA-CoAttention
pytorch
GitHub 中提及
arya46/VQA_HieCoAtt
tf
GitHub 中提及
Rabahjamal/Visual-Question-Answering
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-dialog-on-visdial-v09-val | HieCoAtt-QI | MRR: 57.88 Mean Rank: 5.84 R@1: 43.51 R@10: 83.96 R@5: 74.49 |
| visual-question-answering-on-coco-visual-1 | HQI+ResNet | Percentage correct: 66.1 |
| visual-question-answering-on-coco-visual-4 | HQI+ResNet | Percentage correct: 62.1 |
| visual-question-answering-on-vqa-v1-test-dev | HieCoAtt (ResNet) | Accuracy: 61.8 |
| visual-question-answering-on-vqa-v1-test-std | HieCoAtt (ResNet) | Accuracy: 62.1 |