3 个月前

变分因果推断网络用于解释性视觉问答

变分因果推断网络用于解释性视觉问答

摘要

解释性视觉问答(Explanatory Visual Question Answering, EVQA)是一项近期提出的多模态推理任务,要求在回答视觉问题的同时,生成用于解释推理过程的多模态说明。与传统视觉问答(Visual Question Answering, VQA)仅关注答案生成不同,EVQA旨在通过提供用户友好的解释,提升推理模型的可解释性与可信度。然而,现有的EVQA方法通常将答案预测与解释生成分别进行,忽略了二者之间的因果关联;同时,这些方法也未能充分建模问题词汇、视觉区域与解释文本标记之间的复杂交互关系。为解决上述问题,本文提出一种变分因果推理网络(Variational Causal Inference Network, VCIN),该模型能够建立预测答案与解释之间的因果关联,并捕捉跨模态间的复杂关系,从而生成更具逻辑性的解释。具体而言,首先利用视觉-语言预训练模型提取图像特征与问题特征;其次,设计一种多模态解释门控Transformer(Multimodal Explanation Gating Transformer),用于构建跨模态关联并生成合理解释;最后,引入变分因果推理机制,以构建目标因果结构并实现答案预测。大量实验证明,所提出的VCIN在多个基准数据集上显著优于当前最先进的EVQA方法,展现出更强的推理能力与解释生成性能。

基准测试

基准方法指标
explanatory-visual-question-answering-on-gqaVCIN
BLEU-4: 58.65
CIDEr: 519.23
GQA-test: 60.61
GQA-val: 81.80
Grounding: 77.33
METEOR: 41.57
ROUGE-L: 81.45
SPICE: 54.63
fs-mevqa-on-smeVCIN
#Learning Samples (N): 16
ACC: 17.77
BLEU-4: 9.17
CIDEr: 4.28
Detection: 0.28
METEOR: 19.82
ROUGE-L: 33.34
SPICE: 13.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
变分因果推断网络用于解释性视觉问答 | 论文 | HyperAI超神经