4 个月前

BiCro：通过双向跨模态相似性一致性进行多模态数据的噪声对应校正

Yang Shuo ; Xu Zhaopan ; Wang Kai ; You Yang ; Yao Hongxun ; Liu Tongliang ; Xu Min

摘要

作为多模态学习中最基本的技术之一，跨模态匹配旨在将不同的感官模态投影到一个共享的特征空间中。为了实现这一目标，模型训练需要大量的且对齐正确的数据对。然而，与单模态数据集不同，多模态数据集的收集和精确标注要困难得多。作为一种替代方案，从互联网上收集的共现数据对（例如，图像-文本对）在该领域得到了广泛应用。不幸的是，廉价收集的数据集不可避免地包含许多不匹配的数据对，这些不匹配的数据对已被证明会对模型性能产生负面影响。为了解决这一问题，我们提出了一种称为BiCro（双向跨模态相似性一致性）的通用框架，该框架可以轻松集成到现有的跨模态匹配模型中，并提高其对抗噪声数据的鲁棒性。具体而言，BiCro旨在为噪声数据对估计软标签，以反映它们的真实对应程度。BiCro的基本思想来源于这样一个观点——以图像-文本匹配为例——相似的图像应该有相似的文本描述，反之亦然。然后，这两种相似性的 consistency 可以被重新表述为估计的软标签来训练匹配模型。我们在三个流行的跨模态匹配数据集上的实验表明，我们的方法显著提高了各种匹配模型的抗噪能力，并且明显超越了现有最先进方法的表现。

代码仓库

xu5zhao/bicro

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
cross-modal-retrieval-with-noisy-1	BiCro*	Image-to-text R@1: 40.8 Image-to-text R@10: 76.1 Image-to-text R@5: 67.2 R-Sum: 370.2 Text-to-image R@1: 42.1 Text-to-image R@10: 76.4 Text-to-image R@5: 67.6
cross-modal-retrieval-with-noisy-2	BiCro*	Image-to-text R@1: 78.1 Image-to-text R@10: 97.5 Image-to-text R@5: 94.4 R-Sum: 504.7 Text-to-image R@1: 60.4 Text-to-image R@10: 89.9 Text-to-image R@5: 84.4
cross-modal-retrieval-with-noisy-3	BiCro*	Image-to-text R@1: 78.8 Image-to-text R@10: 98.6 Image-to-text R@5: 96.1 R-Sum: 523.2 Text-to-image R@1: 63.7 Text-to-image R@10: 95.7 Text-to-image R@5: 90.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供