3 个月前

通过诱导符号空间实现可解释的视觉推理

通过诱导符号空间实现可解释的视觉推理

摘要

我们研究视觉推理中的概念归纳问题,即从与图像相关的问答对中识别出概念及其层次关系,并通过在所归纳的符号概念空间上进行操作,构建一个具备可解释性的模型。为此,我们首先设计了一种名为面向对象的组合注意力模型(Object-Centric Compositional Attention Model, OCCAM)的新框架,该框架基于对象级别的视觉特征完成视觉推理任务。随后,我们提出一种方法,利用对象视觉特征与问题词汇之间的注意力模式线索,归纳出对象及其关系的概念。最后,通过将OCCAM应用于所归纳的符号概念空间中的对象表示,实现了更高层次的可解释性。该模型设计使得这一过程易于实现:首先预测对象与关系的概念,然后将预测出的概念投影回视觉特征空间,从而确保组合推理模块能够正常运行。在CLEVR和GQA数据集上的实验结果表明:1)我们的OCCAM在无需人工标注功能程序的情况下,达到了新的最先进性能;2)所归纳的概念既准确又充分,因为当对象以视觉特征或所归纳的符号概念空间表示时,OCCAM均能取得相当的性能表现。

代码仓库

基准测试

基准方法指标
visual-question-answering-on-clevrOCCAM (ours)
Accuracy: 99.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过诱导符号空间实现可解释的视觉推理 | 论文 | HyperAI超神经