3 个月前

超越基于问题的偏差:视觉问答中多模态捷径学习的评估

超越基于问题的偏差:视觉问答中多模态捷径学习的评估

摘要

我们提出了一种用于视觉问答(Visual Question Answering, VQA)任务的评估方法,旨在更有效地诊断模型出现“捷径学习”(shortcut learning)的情形。所谓捷径学习,是指模型通过利用数据中的虚假统计规律得出正确答案,但并未真正实现期望的推理行为。在将模型部署到真实场景之前,识别数据集中可能存在的捷径并评估其使用情况至关重要。当前VQA研究社区主要关注基于问题的捷径——例如,模型可能仅依赖于问题条件下的训练先验,而几乎忽略视觉证据,便将“天空的颜色是什么?”这一问题回答为“蓝色”。我们在此基础上更进一步,引入了同时涉及问题与图像的多模态捷径(multimodal shortcuts)的分析视角。我们首先通过挖掘VQA v2训练集中存在的简单预测规则(如词汇与视觉元素的共现模式),识别出潜在的捷径。随后,我们构建了VQA-CounterExamples(VQA-CE)评估协议,该协议基于我们筛选出的反例子集——即图像-问题-答案三元组,其中我们的规则会导致错误答案。我们利用这一新型评估框架,对现有主流VQA方法进行了大规模实证研究。结果表明,即便最先进的模型在该评估下表现依然不佳,且现有用于缓解偏差的技术在该场景中基本无效。我们的研究发现,以往针对VQA中基于问题的偏差研究,仅触及了这一复杂问题的一个方面。未来工作需更全面地考虑多模态捷径的形成机制与应对策略。我们方法的代码已开源,可通过 https://github.com/cdancette/detect-shortcuts 获取。

代码仓库

cdancette/detect-shortcuts
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-vqa-ceRandImg
Accuracy (Counterexamples): 34.41
visual-question-answering-on-vqa-ceRUBi
Accuracy (Counterexamples): 32.25
visual-question-answering-on-vqa-ceLMH + RMFE
Accuracy (Counterexamples): 33.14
visual-question-answering-on-vqa-ceLMH
Accuracy (Counterexamples): 34.26
visual-question-answering-on-vqa-ceUpDown
Accuracy (Counterexamples): 33.91
visual-question-answering-on-vqa-ceLFF
Accuracy (Counterexamples): 34.27
visual-question-answering-on-vqa-ceBLOCK
Accuracy (Counterexamples): 32.91
visual-question-answering-on-vqa-ceESR
Accuracy (Counterexamples): 33.26
visual-question-answering-on-vqa-ceLMH + CSS
Accuracy (Counterexamples): 34.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越基于问题的偏差:视觉问答中多模态捷径学习的评估 | 论文 | HyperAI超神经