
摘要
尽管多模态学习在跨模态检索任务中取得了成功,但显著的进步依赖于多媒体数据之间的正确对应关系。然而,收集这种理想的数据既昂贵又耗时。实际上,大多数广泛使用的数据集是从互联网上获取的,不可避免地包含了一些不匹配的样本对。在这种带有噪声对应关系的数据集上进行训练会导致性能下降,因为跨模态检索方法可能会错误地将不匹配的数据强制为相似。为了解决这一问题,我们提出了一种元相似度校正网络(Meta Similarity Correction Network, MSCN),以提供可靠的相似度评分。我们将二分类任务视为一个元过程,该过程鼓励MSCN从正负元数据中学习区分能力。为了进一步减轻噪声的影响,我们设计了一种有效的数据净化策略,利用元数据作为先验知识来移除噪声样本。通过广泛的实验验证了我们的方法在合成噪声和真实世界噪声中的优势,包括Flickr30K、MS-COCO和Conceptual Captions数据集。
代码仓库
hhc1997/mscn
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | MSCN | Image-to-text R@1: 40.1 Image-to-text R@10: 76.6 Image-to-text R@5: 65.7 R-Sum: 366.7 Text-to-image R@1: 40.6 Text-to-image R@10: 76.3 Text-to-image R@5: 67.4 |
| cross-modal-retrieval-with-noisy-2 | MSCN | Image-to-text R@1: 77.4 Image-to-text R@10: 97.6 Image-to-text R@5: 94.9 R-Sum: 501.9 Text-to-image R@1: 59.6 Text-to-image R@10: 89.2 Text-to-image R@5: 83.2 |
| cross-modal-retrieval-with-noisy-3 | MSCN | Image-to-text R@1: 78.1 Image-to-text R@10: 98.8 Image-to-text R@5: 97.2 R-Sum: 524.6 Text-to-image R@1: 64.3 Text-to-image R@10: 95.8 Text-to-image R@5: 90.4 |