4 个月前

高阶注意力模型在视觉问答中的应用

高阶注意力模型在视觉问答中的应用

摘要

追求能够实现认知能力的算法是机器学习领域的重要组成部分。许多最近研究的认知类任务的一个共同特点是,它们考虑了不同的数据模态,如视觉和文本输入。本文提出了一种新颖且普遍适用的注意力机制形式,该机制能够学习不同数据模态之间的高阶相关性。我们证明,高阶相关性有效地引导了对解决联合任务所需的各数据模态中相关元素的适当关注。我们在视觉问答(VQA)任务上展示了我们提出的高阶注意力机制的有效性,在标准VQA数据集上达到了最先进的性能。

代码仓库

基准测试

基准方法指标
visual-question-answering-on-coco-visual-13-Modalities: Unary + Pairwise + Ternary (ResNet)
Percentage correct: 69.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
高阶注意力模型在视觉问答中的应用 | 论文 | HyperAI超神经