
摘要
视觉问答(VQA)需要对图像的视觉内容和问题的文本内容进行细致且同步的理解。因此,设计一种有效的“共注意力”模型,以关联问题中的关键词与图像中的关键对象,对于提升VQA性能至关重要。迄今为止,大多数成功的共注意力学习尝试都是通过使用浅层模型实现的,而深层共注意力模型相较于其浅层对应模型并未显示出显著改进。在本文中,我们提出了一种深度模块化共注意力网络(MCAN),该网络由多个模块化共注意力(MCA)层按深度级联组成。每个MCA层利用两个基本注意力单元的模块化组合,建模问题和图像的自注意力以及图像的引导注意力。我们对MCAN在基准VQA-v2数据集上进行了定量和定性的评估,并进行了广泛的消融研究以探讨MCAN有效性的原因。实验结果表明,MCAN显著优于之前的最先进方法。我们的最佳单一模型在测试开发集上的总体准确率为70.63%。代码可在https://github.com/MILVLG/mcan-vqa 获取。
代码仓库
straightAYiJun/vqa-attention-visualize-system
pytorch
GitHub 中提及
apugoneappu/ask_me_anything
pytorch
GitHub 中提及
ThanThoai/Visual-Question-Answering_Vietnamese
pytorch
GitHub 中提及
MILVLG/mcan-vqa
官方
pytorch
apugoneappu/vqa_visualise
pytorch
GitHub 中提及
vikrantmane7781/detectroon2
pytorch
GitHub 中提及
hieunghia-pat/UIT-MCAN
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-sqa3d | MCAN | AnswerExactMatch (Question Answering): 43.42 |
| visual-question-answering-on-vqa-v2-test-dev | MCANed-6 | Accuracy: 70.63 |
| visual-question-answering-on-vqa-v2-test-std | MCANed-6 | overall: 70.9 |