4 个月前

深度模块化协同注意网络用于视觉问答

深度模块化协同注意网络用于视觉问答

摘要

视觉问答(VQA)需要对图像的视觉内容和问题的文本内容进行细致且同步的理解。因此,设计一种有效的“共注意力”模型,以关联问题中的关键词与图像中的关键对象,对于提升VQA性能至关重要。迄今为止,大多数成功的共注意力学习尝试都是通过使用浅层模型实现的,而深层共注意力模型相较于其浅层对应模型并未显示出显著改进。在本文中,我们提出了一种深度模块化共注意力网络(MCAN),该网络由多个模块化共注意力(MCA)层按深度级联组成。每个MCA层利用两个基本注意力单元的模块化组合,建模问题和图像的自注意力以及图像的引导注意力。我们对MCAN在基准VQA-v2数据集上进行了定量和定性的评估,并进行了广泛的消融研究以探讨MCAN有效性的原因。实验结果表明,MCAN显著优于之前的最先进方法。我们的最佳单一模型在测试开发集上的总体准确率为70.63%。代码可在https://github.com/MILVLG/mcan-vqa 获取。

代码仓库

apugoneappu/ask_me_anything
pytorch
GitHub 中提及
MILVLG/mcan-vqa
官方
pytorch
apugoneappu/vqa_visualise
pytorch
GitHub 中提及
vikrantmane7781/detectroon2
pytorch
GitHub 中提及
hieunghia-pat/UIT-MCAN
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-sqa3dMCAN
AnswerExactMatch (Question Answering): 43.42
visual-question-answering-on-vqa-v2-test-devMCANed-6
Accuracy: 70.63
visual-question-answering-on-vqa-v2-test-stdMCANed-6
overall: 70.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
深度模块化协同注意网络用于视觉问答 | 论文 | HyperAI超神经