4 个月前

REX:具备推理意识和基于事实的解释

REX:具备推理意识和基于事实的解释

摘要

有效性和可解释性是构建可信人工智能系统所必需的两个基本属性。近期大多数关于视觉推理的研究主要集中在提高预测答案的准确性上,而对决策背后的理由解释则关注较少。因此,这些研究通常利用虚假偏差而非真正基于视觉-文本数据进行推理,并且尚未开发出能够综合考虑两种模态的关键信息来解释其决策过程的能力。本文从三个不同的角度出发,旨在缩小这一差距:首先,我们定义了一种新的多模态解释类型,通过逐步遍历推理过程并在图像中定位关键词来解释决策。我们开发了一个功能程序,以顺序执行不同的推理步骤,并构建了一个包含1,040,830个多模态解释的新数据集。其次,我们认识到在解释决策时,紧密耦合视觉和文本模态中的重要组件具有关键需求,并提出了一种新颖的解释生成方法,该方法显式建模了单词与感兴趣区域之间的成对对应关系。这种方法显著提高了视觉定位能力,从而增强了可解释性和推理性能。最后,借助我们的新数据集和方法,我们在不同设置下进行了广泛的分析,包括多任务学习和迁移学习,以研究我们提出的解释的有效性。我们的代码和数据可在 https://github.com/szzexpoi/rex 获取。

代码仓库

szzexpoi/rex
官方
pytorch

基准测试

基准方法指标
explanatory-visual-question-answering-on-gqaREX-LXMERT
BLEU-4: 54.79
CIDEr: 466.01
GQA-test: 58.15
GQA-val: 78.19
Grounding: 70.79
METEOR: 39.51
ROUGE-L: 79.41
SPICE: 49.98
explanatory-visual-question-answering-on-gqaREX-VisualBert
BLEU-4: 54.59
CIDEr: 464.20
GQA-test: 57.77
GQA-val: 66.16
Grounding: 67.95
METEOR: 39.22
ROUGE-L: 78.56
SPICE: 46.80
fs-mevqa-on-smeREX
#Learning Samples (N): 16
ACC: 17.77
BLEU-4: 0.00
CIDEr: 0.89
Detection: 0.00
METEOR: 4.37
ROUGE-L: 23.23
SPICE: 0.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
REX:具备推理意识和基于事实的解释 | 论文 | HyperAI超神经