
摘要
现有的大多数视觉问答(VQA)研究工作致力于提升预测答案的准确性,而忽视了对答案解释的生成。我们认为,相较于答案本身,对答案的解释同样甚至更为重要,因为它能够使问答过程更加可理解、可追溯。为此,我们提出了一项新的任务——VQA-E(带解释的视觉问答),要求计算模型在预测答案的同时生成相应的解释。我们首先构建了一个新的数据集,随后将VQA-E问题纳入多任务学习框架中进行建模。我们的VQA-E数据集通过智能利用现有图像描述(captions),从VQA v2数据集自动构建而成。我们还开展了一项用户研究,以验证所提出方法生成解释的质量。定量实验表明,来自解释的额外监督不仅能生成具有洞察力的文本语句以合理化答案,还能有效提升答案预测的性能。在VQA v2数据集上,我们的模型显著优于现有的最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| explanatory-visual-question-answering-on-gqa | VQAE | BLEU-4: 42.56 CIDEr: 358.20 GQA-test: 57.24 GQA-val: 65.19 Grounding: 31.29 METEOR: 34.51 ROUGE-L: 73.59 SPICE: 40.39 |