3 个月前

基于噪声对应关系的跨模态匹配学习

基于噪声对应关系的跨模态匹配学习

摘要

跨模态匹配旨在建立两种不同模态之间的对应关系,是跨模态检索、视觉与语言理解等众多任务的基础。尽管近年来已提出大量跨模态匹配方法,并取得了显著进展,但几乎所有的现有方法都隐含假设:多模态训练数据已正确对齐。然而在实际应用中,这一假设往往成本极高,甚至难以实现。基于这一观察,本文揭示并深入研究了一个潜在且具有挑战性的新方向——噪声对应(noisy correspondence),可被视为噪声标签的一种新范式。与传统噪声标签主要指类别标签错误不同,本文所指的噪声对应特指样本对之间的错配问题。为应对这一新挑战,我们提出一种面向噪声对应的学习方法,命名为噪声对应修正器(Noisy Correspondence Rectifier, NCR)。简言之,NCR利用神经网络的记忆效应,将数据划分为干净样本与噪声样本两部分,并通过一种自适应预测模型,以协同教学(co-teaching)的方式对对应关系进行修正。为验证所提方法的有效性,我们以图像-文本匹配任务作为典型案例展开实验。在Flickr30K、MS-COCO和Conceptual Captions三个公开数据集上的大量实验结果表明,NCR在处理噪声对应问题上具有显著优势。相关代码已公开,可访问:www.pengxi.me。

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1NCR
Image-to-text R@1: 39.5
Image-to-text R@10: 73.5
Image-to-text R@5: 64.5
R-Sum: 355.6
Text-to-image R@1: 40.3
Text-to-image R@10: 73.2
Text-to-image R@5: 64.6
cross-modal-retrieval-with-noisy-2NCR
Image-to-text R@1: 75.0
Image-to-text R@10: 97.5
Image-to-text R@5: 93.9
R-Sum: 496.7
Text-to-image R@1: 58.3
Text-to-image R@10: 89.0
Text-to-image R@5: 83.0
cross-modal-retrieval-with-noisy-3NCR
Image-to-text R@1: 77.7
Image-to-text R@10: 98.2
Image-to-text R@5: 95.5
R-Sum: 518.5
Text-to-image R@1: 62.5
Text-to-image R@10: 95.3
Text-to-image R@5: 89.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于噪声对应关系的跨模态匹配学习 | 论文 | HyperAI超神经