
摘要
收集匹配良好的多媒体数据集对于训练跨模态检索模型至关重要。然而,在现实场景中,大量的多模态数据是从互联网上获取的,这些数据不可避免地包含部分不匹配对(Partially Mismatched Pairs, PMPs)。毋庸置疑,这种语义无关的数据会显著损害跨模态检索性能。以往的研究倾向于通过估计软对应关系来减轻这一问题,从而降低PMPs的贡献度。本文旨在从一个新的视角解决这一挑战:未配对样本之间的潜在语义相似性使得从不匹配对中挖掘有用知识成为可能。为此,我们提出了L2RM,这是一种基于最优传输(Optimal Transport, OT)的通用框架,用于学习重新匹配不匹配对。具体而言,L2RM通过在不同模态之间寻找最小成本传输计划来生成改进的对齐。为了在最优传输中形式化重新匹配的思想,首先,我们提出了一种自监督的成本函数,该函数能够自动从显式的相似性-成本映射关系中学习。其次,我们在建模部分最优传输问题时限制了误报之间的传输,以进一步提升改进的对齐效果。在三个基准数据集上的大量实验表明,我们的L2RM显著提高了现有模型对PMPs的鲁棒性。代码可在https://github.com/hhc1997/L2RM 获取。
代码仓库
hhc1997/l2rm
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | L2RM-SGRAF | Image-to-text R@1: 43.0 Image-to-text R@10: 75.7 Image-to-text R@5: 67.5 R-Sum: 374.2 Text-to-image R@1: 42.8 Text-to-image R@10: 77.2 Text-to-image R@5: 68.0 |
| cross-modal-retrieval-with-noisy-2 | L2RM-SGRAF | Image-to-text R@1: 77.9 Image-to-text R@10: 97.8 Image-to-text R@5: 95.2 R-Sum: 503.8 Text-to-image R@1: 59.8 Text-to-image R@10: 89.5 Text-to-image R@5: 83.6 |
| cross-modal-retrieval-with-noisy-3 | L2RM-SCARF | Image-to-text R@1: 80.2 Image-to-text R@10: 98.5 Image-to-text R@5: 96.3 R-Sum: 524.7 Text-to-image R@1: 64.2 Text-to-image R@10: 95.4 Text-to-image R@5: 90.1 |