7 个月前

多模态表征

Remi Cadene Corentin Dancette Hedi Ben-younes Matthieu Cord Devi Parikh

摘要

视觉问答（VQA）是指回答有关图像的问题的任务。一些VQA模型经常利用单模态偏差来提供正确答案，而无需使用图像信息。因此，当在训练集分布之外的数据上进行评估时，这些模型的性能会大幅下降。这一关键问题使得它们在现实世界的应用中并不合适。我们提出了一种新的学习策略——RUBi，旨在减少任何VQA模型中的偏差。该策略降低了最具有偏差的样本的重要性，即那些不需查看图像即可正确分类的样本。它隐式地迫使VQA模型使用两种输入模态，而不是依赖于问题和答案之间的统计规律性。我们利用了一个仅基于问题的模型来捕捉语言偏差，通过识别这些不必要的规律性何时被使用来实现这一点。该模型通过影响基础VQA模型的预测，防止其学习这些偏差，从而动态调整损失以补偿偏差。我们在VQA-CP v2数据集上验证了我们的贡献，该数据集专门设计用于评估VQA模型在测试时面对与训练期间不同的问题偏差时的鲁棒性。我们的代码可在以下地址获取：github.com/cdancette/rubi.bootstrap.pytorch

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

Remi Cadene Corentin Dancette Hedi Ben-younes Matthieu Cord Devi Parikh

摘要

视觉问答（VQA）是指回答有关图像的问题的任务。一些VQA模型经常利用单模态偏差来提供正确答案，而无需使用图像信息。因此，当在训练集分布之外的数据上进行评估时，这些模型的性能会大幅下降。这一关键问题使得它们在现实世界的应用中并不合适。我们提出了一种新的学习策略——RUBi，旨在减少任何VQA模型中的偏差。该策略降低了最具有偏差的样本的重要性，即那些不需查看图像即可正确分类的样本。它隐式地迫使VQA模型使用两种输入模态，而不是依赖于问题和答案之间的统计规律性。我们利用了一个仅基于问题的模型来捕捉语言偏差，通过识别这些不必要的规律性何时被使用来实现这一点。该模型通过影响基础VQA模型的预测，防止其学习这些偏差，从而动态调整损失以补偿偏差。我们在VQA-CP v2数据集上验证了我们的贡献，该数据集专门设计用于评估VQA模型在测试时面对与训练期间不同的问题偏差时的鲁棒性。我们的代码可在以下地址获取：github.com/cdancette/rubi.bootstrap.pytorch

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供