3 个月前

跨模态检索中的部分不匹配样本

跨模态检索中的部分不匹配样本

摘要

在本文中,我们研究了一个具有挑战性但尚未得到充分关注的跨模态检索问题,即部分错配对(Partially Mismatched Pairs, PMPs)。具体而言,在现实场景中,大量多媒体数据(如Conceptual Captions数据集)来源于互联网,因此不可避免地会将一些无关的跨模态样本误判为匹配对。毫无疑问,此类PMP问题会显著降低跨模态检索的性能。为应对这一挑战,我们提出了一种统一的理论框架——鲁棒跨模态学习(Robust Cross-modal Learning, RCL),该框架基于跨模态检索风险的无偏估计器,旨在赋予跨模态检索方法对PMP的鲁棒性。具体而言,我们的RCL框架引入了一种新颖的互补对比学习范式,以应对以下两个关键挑战:过拟合与欠拟合问题。一方面,我们的方法仅利用负样本信息,而这些负样本相较于正样本更少出现误标情况,从而有效避免了对PMP的过拟合。然而,此类鲁棒性策略可能引发欠拟合问题,导致模型训练更加困难。另一方面,为缓解由弱监督带来的欠拟合问题,我们提出充分利用所有可用的负样本对,以增强负样本信息中所蕴含的监督信号。此外,为进一步提升性能,我们提出最小化风险的上界,从而更加关注困难样本的学习。为验证所提方法的有效性与鲁棒性,我们在五个广泛使用的基准数据集上进行了全面实验,针对图像-文本和视频-文本检索任务,与九种先进的主流方法进行了对比。实验结果表明,所提方法在多种场景下均表现出优越的性能。相关代码已开源,地址为:https://github.com/penghu-cs/RCL。

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1RCL-SGRAF
Image-to-text R@1: 41.7
Image-to-text R@10: 73.6
Image-to-text R@5: 66.0
R-Sum: 364.4
Text-to-image R@1: 41.6
Text-to-image R@10: 75.1
Text-to-image R@5: 66.4
cross-modal-retrieval-with-noisy-2RCL-SGR
Image-to-text R@1: 74.2
Image-to-text R@10: 96.9
Image-to-text R@5: 91.8
R-Sum: 487.2
Text-to-image R@1: 55.6
Text-to-image R@10: 87.5
Text-to-image R@5: 81.2
cross-modal-retrieval-with-noisy-3RCL-SGR
Image-to-text R@1: 77.0
Image-to-text R@10: 98.1
Image-to-text R@5: 95.5
R-Sum: 515.5
Text-to-image R@1: 61.3
Text-to-image R@10: 94.8
Text-to-image R@5: 88.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨模态检索中的部分不匹配样本 | 论文 | HyperAI超神经