4 个月前

用于图像问答的堆叠注意力网络

用于图像问答的堆叠注意力网络

摘要

本文介绍了堆叠注意力网络(Stacked Attention Networks, SANs),该网络能够从图像中学习回答自然语言问题。SANs 使用问题的语义表示作为查询,以搜索图像中与答案相关的区域。我们认为,图像问答(Image Question Answering, QA)通常需要多个推理步骤。因此,我们开发了一种多层SAN,在该网络中,我们多次查询图像,逐步推断出答案。在四个图像问答数据集上进行的实验表明,所提出的SANs显著优于先前的最佳方法。注意力层的可视化展示了SAN逐层定位相关视觉线索的过程,这些线索最终引导出问题的答案。

代码仓库

zcyang/imageqa-san
GitHub 中提及
chirag26495/DAN_VQA
pytorch
GitHub 中提及
Cold-Winter/vqs
caffe2
GitHub 中提及
yanxinyan1/yxy
pytorch
GitHub 中提及
SatyamGaba/vqa
pytorch
GitHub 中提及
snagiri/ECE285_Jarvis_ProjectA
pytorch
GitHub 中提及
rs9000/VisualReasoning_MMnet
pytorch
GitHub 中提及
jiayi-wei/vqa-tf2
tf
GitHub 中提及
abhshkdz/neural-vqa-attention
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-coco-visual-4SAN
Percentage correct: 58.9
visual-question-answering-on-vqa-v1-test-stdSAN (VGG)
Accuracy: 58.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于图像问答的堆叠注意力网络 | 论文 | HyperAI超神经