4 个月前

RUBi:减少视觉问答中的单模态偏差

RUBi:减少视觉问答中的单模态偏差

摘要

视觉问答(VQA)是指回答有关图像的问题的任务。一些VQA模型经常利用单模态偏差来提供正确答案,而无需使用图像信息。因此,当在训练集分布之外的数据上进行评估时,这些模型的性能会大幅下降。这一关键问题使得它们在现实世界的应用中并不合适。我们提出了一种新的学习策略——RUBi,旨在减少任何VQA模型中的偏差。该策略降低了最具有偏差的样本的重要性,即那些不需查看图像即可正确分类的样本。它隐式地迫使VQA模型使用两种输入模态,而不是依赖于问题和答案之间的统计规律性。我们利用了一个仅基于问题的模型来捕捉语言偏差,通过识别这些不必要的规律性何时被使用来实现这一点。该模型通过影响基础VQA模型的预测,防止其学习这些偏差,从而动态调整损失以补偿偏差。我们在VQA-CP v2数据集上验证了我们的贡献,该数据集专门设计用于评估VQA模型在测试时面对与训练期间不同的问题偏差时的鲁棒性。我们的代码可在以下地址获取:github.com/cdancette/rubi.bootstrap.pytorch

代码仓库

cdancette/rubi.bootstrap.pytorch
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-vqa-cpRUBi
Score: 47.11
visual-question-answering-on-vqa-v2-test-devRUBi
Accuracy: 63.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RUBi:减少视觉问答中的单模态偏差 | 论文 | HyperAI超神经