7 个月前

摘要

视觉与语言交汇处的问题不仅作为具有挑战性的研究课题，而且因其丰富的应用前景而显得尤为重要。然而，我们世界中的固有结构和语言中的偏见往往比视觉模态更容易成为学习的信号，导致模型忽视了视觉信息，从而对其能力产生了过高的估计。为了解决这些语言先验问题，我们在视觉问答（Visual Question Answering, VQA）任务中提出了一种方法，使视觉（VQA 中的 V）真正发挥作用！具体而言，我们通过收集互补图像来平衡流行的 VQA 数据集，使得在我们的平衡数据集中每个问题不仅关联到一张图像，而是关联到一对相似但答案不同的图像。因此，我们的数据集在构建上比原始 VQA 数据集更加平衡，并且包含大约两倍数量的图像-问题对。我们完整的平衡数据集已公开发布在 www.visualqa.org 上，作为视觉问答数据集和挑战赛（VQA v2.0）的第二版的一部分。此外，我们在平衡数据集上对多个最先进的 VQA 模型进行了基准测试。所有模型在我们的平衡数据集上的表现都显著下降，这表明这些模型确实学会了利用语言先验。这一发现首次提供了具体的实证证据，证实了实践者们长期以来的一种定性认识。最后，我们用于识别互补图像的数据收集协议使我们能够开发一种新的可解释模型。该模型除了提供给定（图像，问题）对的答案外，还提供了一个基于反例的解释。具体来说，它会识别出一张与原始图像相似但答案不同的图像。这有助于增强用户对机器的信任度。

源 PDF