3 个月前

用于鲁棒视觉问答的反事实样本生成

用于鲁棒视觉问答的反事实样本生成

摘要

尽管近年来视觉问答(Visual Question Answering, VQA)取得了显著进展,当前的VQA模型仍倾向于捕捉训练集中的表层语言相关性,难以在测试集上实现对不同问答分布的良好泛化。为缓解语言偏差问题,近期多项研究引入了仅基于问题的辅助模型,用于正则化目标VQA模型的训练,并在VQA-CP数据集上取得了领先性能。然而,由于现有方法设计复杂,难以使基于集成的模型具备理想VQA模型所应具备的两个关键特性:1)视觉可解释性:模型在决策时应依赖正确的视觉区域;2)问题敏感性:模型应对问题中的语言变化保持敏感。为此,我们提出一种与模型无关的反事实样本生成(Counterfactual Samples Synthesizing, CSS)训练方案。CSS通过遮蔽图像中的关键物体或问题中的关键词汇,并赋予不同的真实答案,生成大量反事实训练样本。在使用原始样本与生成样本联合训练后,VQA模型被迫关注所有关键的视觉区域与语言成分,从而显著提升其视觉可解释性与问题敏感性。与此同时,模型的整体性能也得到进一步增强。大量消融实验验证了CSS的有效性。特别地,在基于LMH模型的基础上,我们在VQA-CP v2数据集上取得了58.95%的创纪录性能,相比之前方法提升达6.5%。

代码仓库

FengSuSky/CCB-VQA
pytorch
GitHub 中提及
yanxinzju/CSS-VQA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-vqa-cpCSS
Score: 58.95

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于鲁棒视觉问答的反事实样本生成 | 论文 | HyperAI超神经