
摘要
追求能够实现认知能力的算法是机器学习领域的重要组成部分。许多最近研究的认知类任务的一个共同特点是,它们考虑了不同的数据模态,如视觉和文本输入。本文提出了一种新颖且普遍适用的注意力机制形式,该机制能够学习不同数据模态之间的高阶相关性。我们证明,高阶相关性有效地引导了对解决联合任务所需的各数据模态中相关元素的适当关注。我们在视觉问答(VQA)任务上展示了我们提出的高阶注意力机制的有效性,在标准VQA数据集上达到了最先进的性能。
代码仓库
idansc/HighOrderAtten
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-coco-visual-1 | 3-Modalities: Unary + Pairwise + Ternary (ResNet) | Percentage correct: 69.3 |