3 个月前

视觉问答中的粗粒度到细粒度推理

视觉问答中的粗粒度到细粒度推理

摘要

弥合图像与问题之间的语义鸿沟,是提升视觉问答(Visual Question Answering, VQA)任务准确率的重要步骤。然而,现有的大多数VQA方法主要聚焦于注意力机制或视觉关系来推理答案,而未能充分挖掘不同语义层次上的特征。本文提出一种新的推理框架,旨在填补VQA任务中视觉特征与语义线索之间的鸿沟。我们的方法首先从图像和问题中分别提取特征与谓词(predicates),随后设计了一种新颖的推理框架,以粗到精的层次化方式有效联合学习这些特征与谓词。在三个大规模VQA数据集上的大量实验结果表明,所提出的方法在准确率方面显著优于其他现有先进方法。此外,该推理框架还为理解深度神经网络在预测答案时的决策过程提供了可解释的途径。

代码仓库

aioz-ai/cfr_vqa
官方
pytorch
GitHub 中提及
aioz-ai/crf_vqa
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉问答中的粗粒度到细粒度推理 | 论文 | HyperAI超神经