6 个月前

摘要

在本文中，我们研究了一个具有挑战性但尚未得到充分关注的跨模态检索问题，即部分错配对（Partially Mismatched Pairs, PMPs）。具体而言，在现实场景中，大量多媒体数据（如Conceptual Captions数据集）来源于互联网，因此不可避免地会将一些无关的跨模态样本误判为匹配对。毫无疑问，此类PMP问题会显著降低跨模态检索的性能。为应对这一挑战，我们提出了一种统一的理论框架——鲁棒跨模态学习（Robust Cross-modal Learning, RCL），该框架基于跨模态检索风险的无偏估计器，旨在赋予跨模态检索方法对PMP的鲁棒性。具体而言，我们的RCL框架引入了一种新颖的互补对比学习范式，以应对以下两个关键挑战：过拟合与欠拟合问题。一方面，我们的方法仅利用负样本信息，而这些负样本相较于正样本更少出现误标情况，从而有效避免了对PMP的过拟合。然而，此类鲁棒性策略可能引发欠拟合问题，导致模型训练更加困难。另一方面，为缓解由弱监督带来的欠拟合问题，我们提出充分利用所有可用的负样本对，以增强负样本信息中所蕴含的监督信号。此外，为进一步提升性能，我们提出最小化风险的上界，从而更加关注困难样本的学习。为验证所提方法的有效性与鲁棒性，我们在五个广泛使用的基准数据集上进行了全面实验，针对图像-文本和视频-文本检索任务，与九种先进的主流方法进行了对比。实验结果表明，所提方法在多种场景下均表现出优越的性能。相关代码已开源，地址为：https://github.com/penghu-cs/RCL。

源 PDF 查看代码