4 个月前

面向目标的动态注意力模型在视觉问答中的应用

面向目标的动态注意力模型在视觉问答中的应用

摘要

视觉问答(VQA)问题正逐渐引起多个研究领域的广泛关注。解决VQA问题需要结合计算机视觉技术来理解所展示图像或视频的视觉内容,以及自然语言处理技术来理解问题的语义并生成答案。在视觉内容建模方面,现有的大多数VQA方法采用从图像或视频中提取全局特征的策略,这不可避免地导致无法捕捉到诸如多个对象的空间配置等细粒度信息。从自动生成的区域中提取特征——正如一些基于区域的图像识别方法所做的那样——本质上并不能解决这一问题,反而可能引入大量与问题无关的特征。在这项工作中,我们提出了一种新颖的聚焦动态注意力(Focused Dynamic Attention, FDA)模型,以提供与所提问题更好地对齐的图像内容表示。FDA模型通过现成的目标检测器识别关键区域,并利用LSTM单元融合这些区域的信息和全局特征。随后,这种由问题驱动的内容表示与问题表示相结合,并输入推理单元以生成答案。在大规模基准数据集VQA上的广泛评估清楚地表明了FDA模型相较于已建立基线方法的优越性能。

基准测试

基准方法指标
visual-question-answering-on-coco-visual-1FDA
Percentage correct: 64.2
visual-question-answering-on-coco-visual-4FDA
Percentage correct: 59.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向目标的动态注意力模型在视觉问答中的应用 | 论文 | HyperAI超神经