17 天前

VQA-E:对视觉问题的答案进行解释、扩展与增强

VQA-E:对视觉问题的答案进行解释、扩展与增强

摘要

现有的大多数视觉问答(VQA)研究工作致力于提升预测答案的准确性,而忽视了对答案解释的生成。我们认为,相较于答案本身,对答案的解释同样甚至更为重要,因为它能够使问答过程更加可理解、可追溯。为此,我们提出了一项新的任务——VQA-E(带解释的视觉问答),要求计算模型在预测答案的同时生成相应的解释。我们首先构建了一个新的数据集,随后将VQA-E问题纳入多任务学习框架中进行建模。我们的VQA-E数据集通过智能利用现有图像描述(captions),从VQA v2数据集自动构建而成。我们还开展了一项用户研究,以验证所提出方法生成解释的质量。定量实验表明,来自解释的额外监督不仅能生成具有洞察力的文本语句以合理化答案,还能有效提升答案预测的性能。在VQA v2数据集上,我们的模型显著优于现有的最先进方法。

基准测试

基准方法指标
explanatory-visual-question-answering-on-gqaVQAE
BLEU-4: 42.56
CIDEr: 358.20
GQA-test: 57.24
GQA-val: 65.19
Grounding: 31.29
METEOR: 34.51
ROUGE-L: 73.59
SPICE: 40.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VQA-E:对视觉问题的答案进行解释、扩展与增强 | 论文 | HyperAI超神经