
摘要
近年来,图像-文本匹配引起了学术界和工业界的越来越多关注,这是理解视觉和文本模态之间潜在对应关系的基础。然而,大多数现有方法隐含地假设训练对齐是准确的,而忽略了普遍存在的标注噪声(即噪声对应,Noisy Correspondence, NC),从而不可避免地导致性能下降。尽管一些方法试图解决这种噪声问题,但它们仍然面临两个挑战:过度记忆/过拟合以及在高噪声条件下对NC的不可靠校正。为了解决这两个问题,我们提出了一种广义的跨模态鲁棒互补学习框架(Cross-modal Robust Complementary Learning, CRCL),该框架通过引入一种新颖的主动互补损失(Active Complementary Loss, ACL)和高效的自精炼对应校正(Self-refining Correspondence Correction, SCC)来提高现有方法的鲁棒性。具体而言,ACL利用主动学习和互补学习损失来降低提供错误监督的风险,从而在理论上和实验上证明了其对NC的鲁棒性。SCC则通过动量校正的多次自精炼过程扩展了接收域,以校正对应关系,从而减轻误差累积并实现准确且稳定的校正。我们在三个图像-文本基准数据集(Flickr30K、MS-COCO 和 CC152K)上进行了广泛的实验,验证了我们的CRCL在合成噪声和真实世界噪声对应下的优越鲁棒性。
代码仓库
qinyang79/crcl
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | CRCL | Image-to-text R@1: 41.8 Image-to-text R@10: 76.5 Image-to-text R@5: 67.4 R-Sum: 373.7 Text-to-image R@1: 41.6 Text-to-image R@10: 78.4 Text-to-image R@5: 68.0 |
| cross-modal-retrieval-with-noisy-2 | CRCL | Image-to-text R@1: 77.9 Image-to-text R@10: 98.3 Image-to-text R@5: 95.4 R-Sum: 507.8 Text-to-image R@1: 60.9 Text-to-image R@10: 90.6 Text-to-image R@5: 84.7 |
| cross-modal-retrieval-with-noisy-3 | CRCL | Image-to-text R@1: 79.6 Image-to-text R@10: 98.7 Image-to-text R@5: 96.1 R-Sum: 525.6 Text-to-image R@1: 64.7 Text-to-image R@10: 95.9 Text-to-image R@5: 90.6 |