4 个月前

REPAIR:基于秩相关性和记忆的噪声对应半替换修复方法

REPAIR:基于秩相关性和记忆的噪声对应半替换修复方法

摘要

在获取的数据中存在噪声,这不可避免地会导致跨模态匹配性能的下降。不幸的是,在多模态领域中获得精确注释的成本很高,因此一些方法试图解决跨模态匹配中的不匹配数据对问题,这一问题被称为“噪声对应”(noisy correspondence)。然而,现有的大多数噪声对应方法存在以下局限性:a) 自强化误差累积的问题;b) 不当处理噪声数据对。为了解决这两个问题,我们提出了一种称为“基于秩相关和记忆库半替换的噪声数据对修复框架”(Rank corrElation and noisy Pair hAlf-replacing wIth memoRy, REPAIR)的通用框架,该框架通过维护一个匹配对特征的记忆库来获益。具体而言,我们计算记忆库中的特征与目标对各模态特征之间的距离,并利用这两组距离的秩相关性来估计目标对的软对应标签。基于记忆库特征而不是相似度网络来估计软对应关系可以避免由于网络错误识别导致的误差累积。对于完全不匹配的数据对,REPAIR 会在记忆库中搜索最匹配的特征以替换某一模态的一个特征,而不是直接使用原始数据对或简单地丢弃不匹配的数据对。我们在三个跨模态数据集上进行了实验,即 Flickr30K、MSCOCO 和 CC152K,证明了我们的 REPAIR 框架在合成噪声和真实世界噪声下的有效性和鲁棒性。

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1REPAIR
Image-to-text R@1: 40.5
Image-to-text R@10: 76.1
Image-to-text R@5: 67.7
R-Sum: 369.2
Text-to-image R@1: 40.3
Text-to-image R@10: 76.4
Text-to-image R@5: 68.2
cross-modal-retrieval-with-noisy-2REPAIR
Image-to-text R@1: 79.2
Image-to-text R@10: 96.9
Image-to-text R@5: 95.0
R-Sum: 504.4
Text-to-image R@1: 59.4
Text-to-image R@10: 89.5
Text-to-image R@5: 84.4
cross-modal-retrieval-with-noisy-3REPAIR
Image-to-text R@1: 78.3
Image-to-text R@10: 98.3
Image-to-text R@5: 96.8
R-Sum: 521.2
Text-to-image R@1: 62.5
Text-to-image R@10: 95.5
Text-to-image R@5: 89.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
REPAIR:基于秩相关性和记忆的噪声对应半替换修复方法 | 论文 | HyperAI超神经