
摘要
跨模态检索依赖于匹配良好的大规模数据集,而在实际操作中构建这些数据集非常费力。最近,为了减轻昂贵的数据收集工作,研究者们开始从互联网上自动获取共现对用于训练。然而,这种方法不可避免地会包含不匹配的对,即噪声对应关系,从而削弱监督的可靠性并降低性能。当前的方法利用深度神经网络的记忆效应来应对噪声对应关系,但过度自信地专注于相似性引导的带有难负样本的训练(similarity-guided training with hard negatives),导致自我强化错误。鉴于此,我们提出了一种新的噪声对应学习框架,称为自强化错误缓解(Self-Reinforcing Errors Mitigation, SREM)。具体而言,通过将样本匹配视为批处理内的分类任务,我们为给定样本生成分类概率值。不同于单一的相似度评分,我们通过能量不确定性来细化样本过滤,并使用交换分类熵估计模型对选定干净样本的敏感性,以考虑整体预测分布。此外,我们提出了跨模态偏互补学习方法,以利用在难负样本训练中被忽视的负匹配关系,进一步提高模型优化的稳定性并抑制自我强化错误。广泛的实验在具有挑战性的基准测试中验证了SREM的有效性和高效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | SREM | Image-to-text R@1: 40.9 Image-to-text R@10: 77.1 Image-to-text R@5: 67.5 R-Sum: 372.2 Text-to-image R@1: 41.5 Text-to-image R@10: 77.0 Text-to-image R@5: 68.2 |
| cross-modal-retrieval-with-noisy-2 | SREM | Image-to-text R@1: 79.5 Image-to-text R@10: 97.9 Image-to-text R@5: 94.2 R-Sum: 507.8 Text-to-image R@1: 61.2 Text-to-image R@10: 90.2 Text-to-image R@5: 84.8 |
| cross-modal-retrieval-with-noisy-3 | SREM | Image-to-text R@1: 78.5 Image-to-text R@10: 98.8 Image-to-text R@5: 96.8 R-Sum: 524.1 Text-to-image R@1: 63.8 Text-to-image R@10: 95.8 Text-to-image R@5: 90.4 |