HyperAIHyperAI

Command Palette

Search for a command to run...

让VQA中的V发挥作用:提升图像理解在视觉问答中的地位

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

摘要

视觉与语言交汇处的问题不仅作为具有挑战性的研究课题,而且因其丰富的应用前景而显得尤为重要。然而,我们世界中的固有结构和语言中的偏见往往比视觉模态更容易成为学习的信号,导致模型忽视了视觉信息,从而对其能力产生了过高的估计。为了解决这些语言先验问题,我们在视觉问答(Visual Question Answering, VQA)任务中提出了一种方法,使视觉(VQA 中的 V)真正发挥作用!具体而言,我们通过收集互补图像来平衡流行的 VQA 数据集,使得在我们的平衡数据集中每个问题不仅关联到一张图像,而是关联到一对相似但答案不同的图像。因此,我们的数据集在构建上比原始 VQA 数据集更加平衡,并且包含大约两倍数量的图像-问题对。我们完整的平衡数据集已公开发布在 www.visualqa.org 上,作为视觉问答数据集和挑战赛(VQA v2.0)的第二版的一部分。此外,我们在平衡数据集上对多个最先进的 VQA 模型进行了基准测试。所有模型在我们的平衡数据集上的表现都显著下降,这表明这些模型确实学会了利用语言先验。这一发现首次提供了具体的实证证据,证实了实践者们长期以来的一种定性认识。最后,我们用于识别互补图像的数据收集协议使我们能够开发一种新的可解释模型。该模型除了提供给定(图像,问题)对的答案外,还提供了一个基于反例的解释。具体来说,它会识别出一张与原始图像相似但答案不同的图像。这有助于增强用户对机器的信任度。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
让VQA中的V发挥作用:提升图像理解在视觉问答中的地位 | 论文 | HyperAI超神经