HyperAIHyperAI

Command Palette

Search for a command to run...

VQA-E:对视觉问题的答案进行解释、扩展与增强

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

摘要

现有的大多数视觉问答(VQA)研究工作致力于提升预测答案的准确性,而忽视了对答案解释的生成。我们认为,相较于答案本身,对答案的解释同样甚至更为重要,因为它能够使问答过程更加可理解、可追溯。为此,我们提出了一项新的任务——VQA-E(带解释的视觉问答),要求计算模型在预测答案的同时生成相应的解释。我们首先构建了一个新的数据集,随后将VQA-E问题纳入多任务学习框架中进行建模。我们的VQA-E数据集通过智能利用现有图像描述(captions),从VQA v2数据集自动构建而成。我们还开展了一项用户研究,以验证所提出方法生成解释的质量。定量实验表明,来自解释的额外监督不仅能生成具有洞察力的文本语句以合理化答案,还能有效提升答案预测的性能。在VQA v2数据集上,我们的模型显著优于现有的最先进方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供