4 个月前

带有元相似性校正的噪声对应学习

带有元相似性校正的噪声对应学习

摘要

尽管多模态学习在跨模态检索任务中取得了成功,但显著的进步依赖于多媒体数据之间的正确对应关系。然而,收集这种理想的数据既昂贵又耗时。实际上,大多数广泛使用的数据集是从互联网上获取的,不可避免地包含了一些不匹配的样本对。在这种带有噪声对应关系的数据集上进行训练会导致性能下降,因为跨模态检索方法可能会错误地将不匹配的数据强制为相似。为了解决这一问题,我们提出了一种元相似度校正网络(Meta Similarity Correction Network, MSCN),以提供可靠的相似度评分。我们将二分类任务视为一个元过程,该过程鼓励MSCN从正负元数据中学习区分能力。为了进一步减轻噪声的影响,我们设计了一种有效的数据净化策略,利用元数据作为先验知识来移除噪声样本。通过广泛的实验验证了我们的方法在合成噪声和真实世界噪声中的优势,包括Flickr30K、MS-COCO和Conceptual Captions数据集。

代码仓库

hhc1997/mscn
官方
pytorch

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1MSCN
Image-to-text R@1: 40.1
Image-to-text R@10: 76.6
Image-to-text R@5: 65.7
R-Sum: 366.7
Text-to-image R@1: 40.6
Text-to-image R@10: 76.3
Text-to-image R@5: 67.4
cross-modal-retrieval-with-noisy-2MSCN
Image-to-text R@1: 77.4
Image-to-text R@10: 97.6
Image-to-text R@5: 94.9
R-Sum: 501.9
Text-to-image R@1: 59.6
Text-to-image R@10: 89.2
Text-to-image R@5: 83.2
cross-modal-retrieval-with-noisy-3MSCN
Image-to-text R@1: 78.1
Image-to-text R@10: 98.8
Image-to-text R@5: 97.2
R-Sum: 524.6
Text-to-image R@1: 64.3
Text-to-image R@10: 95.8
Text-to-image R@5: 90.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
带有元相似性校正的噪声对应学习 | 论文 | HyperAI超神经