摘要
本文研究了一种针对噪声标签的新学习范式——噪声对应关系(Noisy Correspondence, NC)。与以往广泛研究的类别标注错误型噪声标签不同,NC 指的是两个数据样本之间对应关系的错误,即虚假正例对(false positive pairs)。尽管这类错误在从互联网上获取的数据中尤为常见,但大多数现有工作却对此类问题缺乏关注。本文以跨模态检索为例,提出一种名为“带噪声对应关系学习”(Learning with Noisy Correspondence, LNC)的新方法。简而言之,LNC 首先从原始数据中粗略划分出干净样本子集与噪声样本子集,随后利用一种新颖的自适应预测函数对虚假正例对进行修正;最后,通过引入一种具有软边距的新型三元组损失函数,增强跨模态检索模型对噪声对应关系的鲁棒性。为验证所提出 LNC 方法的有效性,我们在图像-文本与视频-文本检索任务的六个基准数据集上进行了实验。实验结果不仅证明了 LNC 方法的优越性能,还揭示了在标准模型训练范式、预训练与微调范式下,显式解决噪声对应关系问题的必要性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | LNC | Image-to-text R@1: 39.5 Image-to-text R@10: 73.1 Image-to-text R@5: 64.0 R-Sum: 355.5 Text-to-image R@1: 40.6 Text-to-image R@10: 73.5 Text-to-image R@5: 64.8 |
| cross-modal-retrieval-with-noisy-2 | LNC | Image-to-text R@1: 76.3 Image-to-text R@10: 96.9 Image-to-text R@5: 93.7 R-Sum: 498.9 Text-to-image R@1: 58.4 Text-to-image R@10: 89.8 Text-to-image R@5: 83.8 |
| cross-modal-retrieval-with-noisy-3 | LNC | Image-to-text R@1: 78.2 Image-to-text R@10: 98.5 Image-to-text R@5: 95.8 R-Sum: 519.9 Text-to-image R@1: 62.6 Text-to-image R@10: 95.4 Text-to-image R@5: 89.4 |