
摘要
作为多模态学习中最基本的技术之一,跨模态匹配旨在将不同的感官模态投影到一个共享的特征空间中。为了实现这一目标,模型训练需要大量的且对齐正确的数据对。然而,与单模态数据集不同,多模态数据集的收集和精确标注要困难得多。作为一种替代方案,从互联网上收集的共现数据对(例如,图像-文本对)在该领域得到了广泛应用。不幸的是,廉价收集的数据集不可避免地包含许多不匹配的数据对,这些不匹配的数据对已被证明会对模型性能产生负面影响。为了解决这一问题,我们提出了一种称为BiCro(双向跨模态相似性一致性)的通用框架,该框架可以轻松集成到现有的跨模态匹配模型中,并提高其对抗噪声数据的鲁棒性。具体而言,BiCro旨在为噪声数据对估计软标签,以反映它们的真实对应程度。BiCro的基本思想来源于这样一个观点——以图像-文本匹配为例——相似的图像应该有相似的文本描述,反之亦然。然后,这两种相似性的 consistency 可以被重新表述为估计的软标签来训练匹配模型。我们在三个流行的跨模态匹配数据集上的实验表明,我们的方法显著提高了各种匹配模型的抗噪能力,并且明显超越了现有最先进方法的表现。
代码仓库
xu5zhao/bicro
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | BiCro* | Image-to-text R@1: 40.8 Image-to-text R@10: 76.1 Image-to-text R@5: 67.2 R-Sum: 370.2 Text-to-image R@1: 42.1 Text-to-image R@10: 76.4 Text-to-image R@5: 67.6 |
| cross-modal-retrieval-with-noisy-2 | BiCro* | Image-to-text R@1: 78.1 Image-to-text R@10: 97.5 Image-to-text R@5: 94.4 R-Sum: 504.7 Text-to-image R@1: 60.4 Text-to-image R@10: 89.9 Text-to-image R@5: 84.4 |
| cross-modal-retrieval-with-noisy-3 | BiCro* | Image-to-text R@1: 78.8 Image-to-text R@10: 98.6 Image-to-text R@5: 96.1 R-Sum: 523.2 Text-to-image R@1: 63.7 Text-to-image R@10: 95.7 Text-to-image R@5: 90.3 |