
摘要
跨模态匹配旨在建立两种不同模态之间的对应关系,是跨模态检索、视觉与语言理解等众多任务的基础。尽管近年来已提出大量跨模态匹配方法,并取得了显著进展,但几乎所有的现有方法都隐含假设:多模态训练数据已正确对齐。然而在实际应用中,这一假设往往成本极高,甚至难以实现。基于这一观察,本文揭示并深入研究了一个潜在且具有挑战性的新方向——噪声对应(noisy correspondence),可被视为噪声标签的一种新范式。与传统噪声标签主要指类别标签错误不同,本文所指的噪声对应特指样本对之间的错配问题。为应对这一新挑战,我们提出一种面向噪声对应的学习方法,命名为噪声对应修正器(Noisy Correspondence Rectifier, NCR)。简言之,NCR利用神经网络的记忆效应,将数据划分为干净样本与噪声样本两部分,并通过一种自适应预测模型,以协同教学(co-teaching)的方式对对应关系进行修正。为验证所提方法的有效性,我们以图像-文本匹配任务作为典型案例展开实验。在Flickr30K、MS-COCO和Conceptual Captions三个公开数据集上的大量实验结果表明,NCR在处理噪声对应问题上具有显著优势。相关代码已公开,可访问:www.pengxi.me。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | NCR | Image-to-text R@1: 39.5 Image-to-text R@10: 73.5 Image-to-text R@5: 64.5 R-Sum: 355.6 Text-to-image R@1: 40.3 Text-to-image R@10: 73.2 Text-to-image R@5: 64.6 |
| cross-modal-retrieval-with-noisy-2 | NCR | Image-to-text R@1: 75.0 Image-to-text R@10: 97.5 Image-to-text R@5: 93.9 R-Sum: 496.7 Text-to-image R@1: 58.3 Text-to-image R@10: 89.0 Text-to-image R@5: 83.0 |
| cross-modal-retrieval-with-noisy-3 | NCR | Image-to-text R@1: 77.7 Image-to-text R@10: 98.2 Image-to-text R@5: 95.5 R-Sum: 518.5 Text-to-image R@1: 62.5 Text-to-image R@10: 95.3 Text-to-image R@5: 89.3 |