4 个月前

忠实的多模态解释用于视觉问答

忠实的多模态解释用于视觉问答

摘要

人工智能系统解释其推理过程的能力对其实用性和可信度至关重要。深度神经网络已经在许多具有挑战性的问题上取得了显著进展,例如视觉问答(VQA)。然而,大多数深度神经网络都是不透明的黑箱模型,解释能力有限。本文提出了一种新颖的方法,用于开发高性能的VQA系统,该系统能够通过集成文本和视觉解释来阐明其答案,这些解释忠实地反映了其底层推理的重要方面,并且捕捉了人类可理解的解释风格。广泛的实验评估表明,与竞争方法相比,该方法在自动评估指标和人工评估指标上均具有优势。

代码仓库

explainableml/clevr-x
pytorch
GitHub 中提及

基准测试

基准方法指标
explanatory-visual-question-answering-on-gqaEXP
BLEU-4: 42.45
CIDEr: 357.10
GQA-test: 56.92
GQA-val: 65.17
Grounding: 33.52
METEOR: 34.46
ROUGE-L: 73.51
SPICE: 40.35

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
忠实的多模态解释用于视觉问答 | 论文 | HyperAI超神经