4 个月前

BiCro:通过双向跨模态相似性一致性进行多模态数据的噪声对应校正

BiCro:通过双向跨模态相似性一致性进行多模态数据的噪声对应校正

摘要

作为多模态学习中最基本的技术之一,跨模态匹配旨在将不同的感官模态投影到一个共享的特征空间中。为了实现这一目标,模型训练需要大量的且对齐正确的数据对。然而,与单模态数据集不同,多模态数据集的收集和精确标注要困难得多。作为一种替代方案,从互联网上收集的共现数据对(例如,图像-文本对)在该领域得到了广泛应用。不幸的是,廉价收集的数据集不可避免地包含许多不匹配的数据对,这些不匹配的数据对已被证明会对模型性能产生负面影响。为了解决这一问题,我们提出了一种称为BiCro(双向跨模态相似性一致性)的通用框架,该框架可以轻松集成到现有的跨模态匹配模型中,并提高其对抗噪声数据的鲁棒性。具体而言,BiCro旨在为噪声数据对估计软标签,以反映它们的真实对应程度。BiCro的基本思想来源于这样一个观点——以图像-文本匹配为例——相似的图像应该有相似的文本描述,反之亦然。然后,这两种相似性的 consistency 可以被重新表述为估计的软标签来训练匹配模型。我们在三个流行的跨模态匹配数据集上的实验表明,我们的方法显著提高了各种匹配模型的抗噪能力,并且明显超越了现有最先进方法的表现。

代码仓库

xu5zhao/bicro
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1BiCro*
Image-to-text R@1: 40.8
Image-to-text R@10: 76.1
Image-to-text R@5: 67.2
R-Sum: 370.2
Text-to-image R@1: 42.1
Text-to-image R@10: 76.4
Text-to-image R@5: 67.6
cross-modal-retrieval-with-noisy-2BiCro*
Image-to-text R@1: 78.1
Image-to-text R@10: 97.5
Image-to-text R@5: 94.4
R-Sum: 504.7
Text-to-image R@1: 60.4
Text-to-image R@10: 89.9
Text-to-image R@5: 84.4
cross-modal-retrieval-with-noisy-3BiCro*
Image-to-text R@1: 78.8
Image-to-text R@10: 98.6
Image-to-text R@5: 96.1
R-Sum: 523.2
Text-to-image R@1: 63.7
Text-to-image R@10: 95.7
Text-to-image R@5: 90.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BiCro:通过双向跨模态相似性一致性进行多模态数据的噪声对应校正 | 论文 | HyperAI超神经