摘要
现有跨模态检索(Cross-Modal Retrieval, CMR)方法的成功在很大程度上依赖于一个假设:标注的跨模态对应关系是完全准确的。然而在实际应用中,由于数据收集或人工标注过程中的不可避免误差,部分模态对之间的对应关系往往会被污染,从而引发所谓的“噪声对应”(Noisy Correspondence, NC)问题。为缓解NC带来的负面影响,本文提出一种新颖的方法——一致性精炼与挖掘(Consistency REfining And Mining, CREAM),其核心思想在于揭示并利用“对应关系”与“一致性”之间的差异。具体而言,对于真正的正样本对和负样本对,对应关系与一致性是高度一致的;而对于误检的正样本对(假正例)和漏检的负样本对(假负例),二者则呈现出显著差异。基于这一观察,CREAM采用协同学习范式,用于检测并修正正样本对的对应关系;同时引入负样本挖掘机制,主动探索并利用负样本对中蕴含的一致性信息。得益于CREAM所提出的“一致性精炼与挖掘”策略,模型能够有效避免对假正例的过拟合,同时充分挖掘假负例中潜在的一致性特征,从而显著提升跨模态检索的鲁棒性。大量实验验证了该方法在三个主流图像-文本基准数据集(Flickr30K、MS-COCO 和 Conceptual Captions)上的有效性。此外,我们将该方法拓展至图匹配任务,结果进一步表明,CREAM在应对细粒度噪声对应问题时仍具有优异的鲁棒性。代码已开源,地址为:https://github.com/XLearning-SCU/2024-TIP-CREAM。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | CREAM | Image-to-text R@1: 40.3 Image-to-text R@10: 77.1 Image-to-text R@5: 68.5 R-Sum: 372.6 Text-to-image R@1: 40.2 Text-to-image R@10: 78.3 Text-to-image R@5: 68.2 |
| cross-modal-retrieval-with-noisy-2 | CREAM | Image-to-text R@1: 77.4 Image-to-text R@10: 97.3 Image-to-text R@5: 95.0 R-Sum: 502.3 Text-to-image R@1: 58.7 Text-to-image R@10: 89.8 Text-to-image R@5: 84.1 |
| cross-modal-retrieval-with-noisy-3 | CREAM | Image-to-text R@1: 78.9 Image-to-text R@10: 98.6 Image-to-text R@5: 96.3 R-Sum: 523 Text-to-image R@1: 63.3 Text-to-image R@10: 95.8 Text-to-image R@5: 90.1 |
| graph-matching-on-pascal-voc | CREAM | matching accuracy: 0.814 |
| graph-matching-on-spair-71k | CREAM | matching accuracy: 0.851 |
| graph-matching-on-willow-object-class | CREAM | matching accuracy: 0.988 |