4 个月前

动态记忆网络在视觉和文本问答中的应用

动态记忆网络在视觉和文本问答中的应用

摘要

具有记忆和注意力机制的神经网络架构展示了问答任务所需的某些推理能力。其中一种架构,动态记忆网络(Dynamic Memory Network, DMN),在多种语言任务中取得了高精度。然而,尚未证明该架构在训练过程中未标记支持事实的情况下是否能在问答任务中取得优异成绩,也未证明其能否应用于其他模态,如图像。基于对DMN的分析,我们提出了对其记忆模块和输入模块的几项改进。结合这些改进,我们引入了一种新的图像输入模块,以便能够回答视觉问题。我们的新模型DMN+在视觉问答数据集和\babi-10k文本问答数据集上均取得了最先进的成果,且无需支持事实监督。

基准测试

基准方法指标
visual-question-answering-on-coco-visual-4DMN+ [xiong2016dynamic]
Percentage correct: 60.4
visual-question-answering-on-vqa-v1-test-devDMN+
Accuracy: 60.3
visual-question-answering-on-vqa-v1-test-stdDMN+
Accuracy: 60.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
动态记忆网络在视觉和文本问答中的应用 | 论文 | HyperAI超神经