4 个月前

带噪声的对应关系学习与自强化错误缓解

带噪声的对应关系学习与自强化错误缓解

摘要

跨模态检索依赖于匹配良好的大规模数据集,而在实际操作中构建这些数据集非常费力。最近,为了减轻昂贵的数据收集工作,研究者们开始从互联网上自动获取共现对用于训练。然而,这种方法不可避免地会包含不匹配的对,即噪声对应关系,从而削弱监督的可靠性并降低性能。当前的方法利用深度神经网络的记忆效应来应对噪声对应关系,但过度自信地专注于相似性引导的带有难负样本的训练(similarity-guided training with hard negatives),导致自我强化错误。鉴于此,我们提出了一种新的噪声对应学习框架,称为自强化错误缓解(Self-Reinforcing Errors Mitigation, SREM)。具体而言,通过将样本匹配视为批处理内的分类任务,我们为给定样本生成分类概率值。不同于单一的相似度评分,我们通过能量不确定性来细化样本过滤,并使用交换分类熵估计模型对选定干净样本的敏感性,以考虑整体预测分布。此外,我们提出了跨模态偏互补学习方法,以利用在难负样本训练中被忽视的负匹配关系,进一步提高模型优化的稳定性并抑制自我强化错误。广泛的实验在具有挑战性的基准测试中验证了SREM的有效性和高效性。

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1SREM
Image-to-text R@1: 40.9
Image-to-text R@10: 77.1
Image-to-text R@5: 67.5
R-Sum: 372.2
Text-to-image R@1: 41.5
Text-to-image R@10: 77.0
Text-to-image R@5: 68.2
cross-modal-retrieval-with-noisy-2SREM
Image-to-text R@1: 79.5
Image-to-text R@10: 97.9
Image-to-text R@5: 94.2
R-Sum: 507.8
Text-to-image R@1: 61.2
Text-to-image R@10: 90.2
Text-to-image R@5: 84.8
cross-modal-retrieval-with-noisy-3SREM
Image-to-text R@1: 78.5
Image-to-text R@10: 98.8
Image-to-text R@5: 96.8
R-Sum: 524.1
Text-to-image R@1: 63.8
Text-to-image R@10: 95.8
Text-to-image R@5: 90.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
带噪声的对应关系学习与自强化错误缓解 | 论文 | HyperAI超神经