3 个月前

REVIVE:区域视觉表征在基于知识的视觉问答中至关重要

REVIVE:区域视觉表征在基于知识的视觉问答中至关重要

摘要

本文重新审视了基于知识的视觉问答(Knowledge-based Visual Question Answering, KB-VQA)中的视觉表征问题,并证明:更有效地利用区域信息能够显著提升模型性能。尽管在传统视觉问答(VQA)任务中,视觉表征已得到广泛研究,但在基于知识的VQA中,这一方向仍鲜有深入探索,尽管两类任务在本质上具有共通之处——即均依赖视觉输入来回答问题。具体而言,我们观察到当前多数先进KB-VQA方法存在以下两个关键问题:1)视觉特征通常从整张图像或通过滑动窗口方式提取以检索知识,而忽略了对象区域内部及区域之间的关键关系;2)在最终的答案生成模型中,视觉特征未能得到充分有效的利用,这一现象在一定程度上违背直觉。基于上述观察,本文提出一种新的KB-VQA方法——REVIVE,旨在将对象区域的显式信息不仅应用于知识检索阶段,同时也融入答案生成模型之中。其核心动机在于:对象区域及其内在关系对于基于知识的视觉问答至关重要。我们在标准的OK-VQA数据集上进行了大量实验,取得了新的最先进性能,准确率达到58.0%,相较于此前最优方法大幅提升(+3.6%)。此外,我们还进行了详尽的消融分析,验证了区域信息在KB-VQA不同模块中的必要性。相关代码已公开,地址为:https://github.com/yzleroy/REVIVE。

代码仓库

yzleroy/revive
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-ok-vqaREVIVE (Ensemble)
Accuracy: 58.0
visual-question-answering-on-ok-vqaREVIVE (Single)
Accuracy: 56.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
REVIVE:区域视觉表征在基于知识的视觉问答中至关重要 | 论文 | HyperAI超神经