4 个月前

学习重匹配错配对以实现鲁棒的跨模态检索

学习重匹配错配对以实现鲁棒的跨模态检索

摘要

收集匹配良好的多媒体数据集对于训练跨模态检索模型至关重要。然而,在现实场景中,大量的多模态数据是从互联网上获取的,这些数据不可避免地包含部分不匹配对(Partially Mismatched Pairs, PMPs)。毋庸置疑,这种语义无关的数据会显著损害跨模态检索性能。以往的研究倾向于通过估计软对应关系来减轻这一问题,从而降低PMPs的贡献度。本文旨在从一个新的视角解决这一挑战:未配对样本之间的潜在语义相似性使得从不匹配对中挖掘有用知识成为可能。为此,我们提出了L2RM,这是一种基于最优传输(Optimal Transport, OT)的通用框架,用于学习重新匹配不匹配对。具体而言,L2RM通过在不同模态之间寻找最小成本传输计划来生成改进的对齐。为了在最优传输中形式化重新匹配的思想,首先,我们提出了一种自监督的成本函数,该函数能够自动从显式的相似性-成本映射关系中学习。其次,我们在建模部分最优传输问题时限制了误报之间的传输,以进一步提升改进的对齐效果。在三个基准数据集上的大量实验表明,我们的L2RM显著提高了现有模型对PMPs的鲁棒性。代码可在https://github.com/hhc1997/L2RM 获取。

代码仓库

hhc1997/l2rm
官方
pytorch

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1L2RM-SGRAF
Image-to-text R@1: 43.0
Image-to-text R@10: 75.7
Image-to-text R@5: 67.5
R-Sum: 374.2
Text-to-image R@1: 42.8
Text-to-image R@10: 77.2
Text-to-image R@5: 68.0
cross-modal-retrieval-with-noisy-2L2RM-SGRAF
Image-to-text R@1: 77.9
Image-to-text R@10: 97.8
Image-to-text R@5: 95.2
R-Sum: 503.8
Text-to-image R@1: 59.8
Text-to-image R@10: 89.5
Text-to-image R@5: 83.6
cross-modal-retrieval-with-noisy-3L2RM-SCARF
Image-to-text R@1: 80.2
Image-to-text R@10: 98.5
Image-to-text R@5: 96.3
R-Sum: 524.7
Text-to-image R@1: 64.2
Text-to-image R@10: 95.4
Text-to-image R@5: 90.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习重匹配错配对以实现鲁棒的跨模态检索 | 论文 | HyperAI超神经