4 个月前

通过引导硬注意力学习视觉问答

通过引导硬注意力学习视觉问答

摘要

在生物感知中,注意力机制被认为会选择感知信息的子集进行更为复杂的处理,而对所有感官输入进行全面处理则是不可行的。然而,在计算机视觉领域,尽管软注意力(即信息被重新加权和聚合,但从未被过滤掉)取得了成功,但对于硬注意力(即某些信息被选择性忽略)的研究却相对较少。本文介绍了一种新的硬注意力方法,并发现其在最近发布的视觉问答数据集上表现非常具有竞争力,在某些情况下甚至超过了类似的软注意力架构,同时完全忽略了某些特征。虽然硬注意力机制被认为是非可微分的,但我们发现特征的幅度与语义相关性有关联,并为我们的机制提供了有用的注意选择标准。由于硬注意力选择了输入信息的重要特征,因此它可能比类似的软注意力机制更高效。这一点对于近期使用非局部成对操作的方法尤为重要,因为这些方法的计算和内存成本与特征集合大小呈二次关系。

代码仓库

基准测试

基准方法指标
visual-question-answering-on-clevrCNN + LSTM + RN + HAN
Accuracy: 98.8
visual-question-answering-on-vqa-cpHAN
Score: 28.65

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过引导硬注意力学习视觉问答 | 论文 | HyperAI超神经