
摘要
人工智能系统解释其推理过程的能力对其实用性和可信度至关重要。深度神经网络已经在许多具有挑战性的问题上取得了显著进展,例如视觉问答(VQA)。然而,大多数深度神经网络都是不透明的黑箱模型,解释能力有限。本文提出了一种新颖的方法,用于开发高性能的VQA系统,该系统能够通过集成文本和视觉解释来阐明其答案,这些解释忠实地反映了其底层推理的重要方面,并且捕捉了人类可理解的解释风格。广泛的实验评估表明,与竞争方法相比,该方法在自动评估指标和人工评估指标上均具有优势。
代码仓库
explainableml/clevr-x
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| explanatory-visual-question-answering-on-gqa | EXP | BLEU-4: 42.45 CIDEr: 357.10 GQA-test: 56.92 GQA-val: 65.17 Grounding: 33.52 METEOR: 34.46 ROUGE-L: 73.51 SPICE: 40.35 |