6 个月前

摘要

尽管近年来视觉问答（Visual Question Answering, VQA）取得了显著进展，当前的VQA模型仍倾向于捕捉训练集中的表层语言相关性，难以在测试集上实现对不同问答分布的良好泛化。为缓解语言偏差问题，近期多项研究引入了仅基于问题的辅助模型，用于正则化目标VQA模型的训练，并在VQA-CP数据集上取得了领先性能。然而，由于现有方法设计复杂，难以使基于集成的模型具备理想VQA模型所应具备的两个关键特性：1）视觉可解释性：模型在决策时应依赖正确的视觉区域；2）问题敏感性：模型应对问题中的语言变化保持敏感。为此，我们提出一种与模型无关的反事实样本生成（Counterfactual Samples Synthesizing, CSS）训练方案。CSS通过遮蔽图像中的关键物体或问题中的关键词汇，并赋予不同的真实答案，生成大量反事实训练样本。在使用原始样本与生成样本联合训练后，VQA模型被迫关注所有关键的视觉区域与语言成分，从而显著提升其视觉可解释性与问题敏感性。与此同时，模型的整体性能也得到进一步增强。大量消融实验验证了CSS的有效性。特别地，在基于LMH模型的基础上，我们在VQA-CP v2数据集上取得了58.95%的创纪录性能，相比之前方法提升达6.5%。

源 PDF