
摘要
本文介绍了堆叠注意力网络(Stacked Attention Networks, SANs),该网络能够从图像中学习回答自然语言问题。SANs 使用问题的语义表示作为查询,以搜索图像中与答案相关的区域。我们认为,图像问答(Image Question Answering, QA)通常需要多个推理步骤。因此,我们开发了一种多层SAN,在该网络中,我们多次查询图像,逐步推断出答案。在四个图像问答数据集上进行的实验表明,所提出的SANs显著优于先前的最佳方法。注意力层的可视化展示了SAN逐层定位相关视觉线索的过程,这些线索最终引导出问题的答案。
代码仓库
zcyang/imageqa-san
GitHub 中提及
abhijit-buet/VizWiz-Visual-Question-Answering-2021
pytorch
GitHub 中提及
chirag26495/DAN_VQA
pytorch
GitHub 中提及
mokhalid-dev/Attention-based-VQA-model
pytorch
GitHub 中提及
Cold-Winter/vqs
caffe2
GitHub 中提及
yanxinyan1/yxy
pytorch
GitHub 中提及
abhi-iyer/visual-question-answering
pytorch
GitHub 中提及
SatyamGaba/vqa
pytorch
GitHub 中提及
SatyamGaba/visual_question_answering
pytorch
GitHub 中提及
snagiri/ECE285_Jarvis_ProjectA
pytorch
GitHub 中提及
Shivanshu-Gupta/Visual-Question-Answering
pytorch
GitHub 中提及
TingAnChien/san-vqa-tensorflow
tf
GitHub 中提及
abhijit-buet/VizWiz-Visua-Question-Answering-2021
pytorch
GitHub 中提及
rs9000/VisualReasoning_MMnet
pytorch
GitHub 中提及
jiayi-wei/vqa-tf2
tf
GitHub 中提及
abhshkdz/neural-vqa-attention
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-coco-visual-4 | SAN | Percentage correct: 58.9 |
| visual-question-answering-on-vqa-v1-test-std | SAN (VGG) | Accuracy: 58.9 |