4 个月前

面向问题的混合卷积用于视觉问答

面向问题的混合卷积用于视觉问答

摘要

本文提出了一种新颖的问题引导混合卷积(Question-Guided Hybrid Convolution, QGHC)网络,用于视觉问答(Visual Question Answering, VQA)。大多数现有的先进VQA方法在学习多模态特征时,将神经网络中的高层次文本和视觉特征进行融合,但放弃了视觉空间信息。为了解决这些问题,我们设计了从输入问题生成的问题引导卷积核,这些卷积核在早期阶段与视觉特征进行卷积操作,以捕捉文本和视觉之间的关系。问题引导卷积可以紧密耦合文本和视觉信息,但在学习卷积核时会引入更多参数。为此,我们采用了由问题无关卷积核和问题相关卷积核组成的组卷积(group convolution),以减少参数量并缓解过拟合现象。混合卷积能够在较少的参数下生成具有区分性的多模态特征。所提出的这种方法还可以与现有的双线性池化融合和基于注意力机制的VQA方法互补。通过与这些方法结合,我们的方法可以进一步提升性能。在公共VQA数据集上的大量实验验证了QGHC的有效性。

基准测试

基准方法指标
visual-question-answering-on-clevrQGHC+Att+Concat
Accuracy: 65.90
visual-question-answering-on-coco-visual-4QGHC+Att+Concat
Percentage correct: 65.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向问题的混合卷积用于视觉问答 | 论文 | HyperAI超神经