4 个月前

通过几何结构一致性学习缓解噪声对应问题

通过几何结构一致性学习缓解噪声对应问题

摘要

跨模态数据对中的噪声对应关系,即不同模态数据之间的不匹配,在人工标注或网络爬取的数据集中普遍存在。以往的方法主要考虑应用单模态噪声标签学习,而未修正其对多模态学习中跨模态和同模态几何结构的影响。实际上,我们发现当这些结构建立得当且有效时,通过结构差异可以区分噪声对应关系。受此观察启发,我们提出了一种几何结构一致性(Geometrical Structure Consistency, GSC)方法来推断真实对应关系。具体而言,GSC 保证了模态内和模态间几何结构的保存,从而能够基于结构差异准确识别噪声样本。利用这些推断出的真实对应关系标签,GSC 通过过滤掉噪声样本进一步优化了几何结构的学习。在四个跨模态数据集上的实验结果表明,GSC 能够有效识别噪声样本,并显著优于当前领先的方法。

代码仓库

MediaBrain-SJTU/GSC
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1GSC-SGR
Image-to-text R@1: 42.1
Image-to-text R@10: 77.7
Image-to-text R@5: 68.4
R-Sum: 375.1
Text-to-image R@1: 42.2
Text-to-image R@10: 77.1
Text-to-image R@5: 67.6
cross-modal-retrieval-with-noisy-2GSC-SGR
Image-to-text R@1: 78.3
Image-to-text R@10: 97.8
Image-to-text R@5: 94.6
R-Sum: 505.8
Text-to-image R@1: 60.1
Text-to-image R@10: 90.5
Text-to-image R@5: 84.5
cross-modal-retrieval-with-noisy-3GSC-SGR
Image-to-text R@1: 79.5
Image-to-text R@10: 98.9
Image-to-text R@5: 96.4
R-Sum: 525.7
Text-to-image R@1: 64.4
Text-to-image R@10: 95.9
Text-to-image R@5: 90.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过几何结构一致性学习缓解噪声对应问题 | 论文 | HyperAI超神经