
摘要
解释性视觉问答(Explanatory Visual Question Answering, EVQA)是一项近期提出的多模态推理任务,要求在回答视觉问题的同时,生成用于解释推理过程的多模态说明。与传统视觉问答(Visual Question Answering, VQA)仅关注答案生成不同,EVQA旨在通过提供用户友好的解释,提升推理模型的可解释性与可信度。然而,现有的EVQA方法通常将答案预测与解释生成分别进行,忽略了二者之间的因果关联;同时,这些方法也未能充分建模问题词汇、视觉区域与解释文本标记之间的复杂交互关系。为解决上述问题,本文提出一种变分因果推理网络(Variational Causal Inference Network, VCIN),该模型能够建立预测答案与解释之间的因果关联,并捕捉跨模态间的复杂关系,从而生成更具逻辑性的解释。具体而言,首先利用视觉-语言预训练模型提取图像特征与问题特征;其次,设计一种多模态解释门控Transformer(Multimodal Explanation Gating Transformer),用于构建跨模态关联并生成合理解释;最后,引入变分因果推理机制,以构建目标因果结构并实现答案预测。大量实验证明,所提出的VCIN在多个基准数据集上显著优于当前最先进的EVQA方法,展现出更强的推理能力与解释生成性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| explanatory-visual-question-answering-on-gqa | VCIN | BLEU-4: 58.65 CIDEr: 519.23 GQA-test: 60.61 GQA-val: 81.80 Grounding: 77.33 METEOR: 41.57 ROUGE-L: 81.45 SPICE: 54.63 |
| fs-mevqa-on-sme | VCIN | #Learning Samples (N): 16 ACC: 17.77 BLEU-4: 9.17 CIDEr: 4.28 Detection: 0.28 METEOR: 19.82 ROUGE-L: 33.34 SPICE: 13.39 |