3 个月前

UGNCL:基于不确定性引导的噪声对应学习的高效跨模态匹配

UGNCL:基于不确定性引导的噪声对应学习的高效跨模态匹配

摘要

跨模态匹配近年来受到广泛关注,被用于促进多模态数据之间的检索任务。现有方法普遍依赖于一个隐含假设:训练数据对是完全对齐的。然而,由于不可避免的数据错配(即噪声对应关系),这一理想假设在现实中几乎无法成立。噪声对应关系会错误地促使错配的数据对趋于相似,从而导致模型性能下降。尽管近期已有部分方法尝试解决该问题,但仍面临两大挑战:1)训练过程中数据划分不可靠,导致训练效率低下;2)匹配预测不稳定,易引发匹配失败。为应对上述问题,本文提出一种高效且鲁棒的不确定性引导噪声对应学习框架(Uncertainty-Guided Noisy Correspondence Learning, UGNCL),以实现对噪声具有强鲁棒性的跨模态匹配。具体而言,我们设计了一种新颖的不确定性引导划分(Uncertainty Guided Division, UGD)算法,通过有效利用数据样本所蕴含的不确定性信息,将训练数据划分为“干净”、“噪声”和“困难”三类子集。该机制能够有效缓解易识别噪声对的负面影响。同时,我们提出一种高效的可信鲁棒损失函数(Trusted Robust Loss, TRL),通过不确定性度量,对“困难”子集中数据对的软边界进行重构。该损失函数基于置信但可能存在误差的软对应标签,动态调整匹配对与非匹配对的重要性权重,即增强匹配对的贡献、抑制非匹配对的影响,从而显著降低噪声数据对模型训练的干扰,进一步提升整体匹配鲁棒性。在三个公开数据集上开展的大量实验充分验证了所提框架的优越性,结果表明其性能在多个指标上均优于当前最先进的方法。相关代码已开源,地址为:https://github.com/qxzha/UGNCL。

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1UGNCL
Image-to-text R@1: 43.6
Image-to-text R@10: 74.9
Image-to-text R@5: 67.1
R-Sum: 373.1
Text-to-image R@1: 42.7
Text-to-image R@10: 76.4
Text-to-image R@5: 68.4
cross-modal-retrieval-with-noisy-2UGNCL
Image-to-text R@1: 78.4
Image-to-text R@10: 97.8
Image-to-text R@5: 95.8
R-Sum: 505.6
Text-to-image R@1: 59.8
Text-to-image R@10: 89.5
Text-to-image R@5: 84.3
cross-modal-retrieval-with-noisy-3UGNCL
Image-to-text R@1: 79.5
Image-to-text R@10: 99.0
Image-to-text R@5: 97.2
R-Sum: 526.3
Text-to-image R@1: 63.7
Text-to-image R@10: 96.0
Text-to-image R@5: 90.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UGNCL:基于不确定性引导的噪声对应学习的高效跨模态匹配 | 论文 | HyperAI超神经