3 个月前

基于噪声对应关系的深度证据学习用于跨模态检索

基于噪声对应关系的深度证据学习用于跨模态检索

摘要

跨模态检索一直是多模态研究领域的重要课题。近年来,为降低数据收集的成本,研究者们开始从互联网上获取大量图像与文本的共现配对数据,构建大规模跨模态数据集(如Conceptual Captions)。然而,这种数据采集方式不可避免地引入噪声(即不匹配的图文对),称为“噪声对应关系”。显然,此类噪声会使得监督信号变得不可靠或不确定,显著降低模型性能。此外,现有大多数方法将训练重点放在难负样本上,这反而会加剧噪声带来的不可靠性问题。为解决上述挑战,本文提出一种广义的深度证据跨模态学习框架(Generalized Deep Evidential Cross-modal Learning, DECL),该框架融合了一种新颖的跨模态证据学习范式(Cross-modal Evidential Learning, CEL)与一种鲁棒的动态铰链损失函数(Robust Dynamic Hinge Loss, RDH),实现正负样本的协同学习。CEL能够有效捕捉并建模由噪声引入的不确定性,从而提升跨模态检索的鲁棒性与可靠性。具体而言,该方法首先基于跨模态相似性构建双向证据,并将其参数化为狄利克雷分布(Dirichlet distribution),不仅实现了精准的不确定性估计,还增强了对噪声对应关系扰动的抗干扰能力。针对噪声放大问题,RDH通过平滑地增加所关注负样本的难度,有效提升了模型在高噪声环境下的鲁棒性。我们在三个主流图像-文本基准数据集(Flickr30K、MS-COCO 和 Conceptual Captions)上进行了大量实验,充分验证了所提方法的有效性与高效性。相关代码已开源,地址为:https://github.com/QinYang79/DECL。

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1DECL-SGRAF
Image-to-text R@1: 39.0
Image-to-text R@10: 75.5
Image-to-text R@5: 66.1
R-Sum: 364.3
Text-to-image R@1: 40.7
Text-to-image R@10: 76.7
Text-to-image R@5: 66.3
cross-modal-retrieval-with-noisy-2DECL-SGRAF
Image-to-text R@1: 77.5
Image-to-text R@10: 97.0
Image-to-text R@5: 93.8
R-Sum: 494.7
Text-to-image R@1: 56.1
Text-to-image R@10: 88.5
Text-to-image R@5: 81.8
cross-modal-retrieval-with-noisy-3DECL-SGARF
Image-to-text R@1: 77.5
Image-to-text R@10: 98.4
Image-to-text R@5: 95.9
R-Sum: 518.2
Text-to-image R@1: 61.7
Text-to-image R@10: 95.4
Text-to-image R@5: 89.3
text-based-person-retrieval-with-noisyDECL
Rank 10: 91.93
Rank-1: 70.29
Rank-5: 87.04
mAP: 62.84
mINP: 46.54
text-based-person-retrieval-with-noisy-1DECL
Rank 1: 61.95
Rank-10: 83.88
Rank-5: 78.36
mAP: 36.08
mINP: 6.25
text-based-person-retrieval-with-noisy-2DECL
Rank 1: 61.75
Rank 10: 86.90
Rank 5: 80.70
mAP: 47.70
mINP: 26.07

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于噪声对应关系的深度证据学习用于跨模态检索 | 论文 | HyperAI超神经