
摘要
跨模态数据对中的噪声对应关系,即不同模态数据之间的不匹配,在人工标注或网络爬取的数据集中普遍存在。以往的方法主要考虑应用单模态噪声标签学习,而未修正其对多模态学习中跨模态和同模态几何结构的影响。实际上,我们发现当这些结构建立得当且有效时,通过结构差异可以区分噪声对应关系。受此观察启发,我们提出了一种几何结构一致性(Geometrical Structure Consistency, GSC)方法来推断真实对应关系。具体而言,GSC 保证了模态内和模态间几何结构的保存,从而能够基于结构差异准确识别噪声样本。利用这些推断出的真实对应关系标签,GSC 通过过滤掉噪声样本进一步优化了几何结构的学习。在四个跨模态数据集上的实验结果表明,GSC 能够有效识别噪声样本,并显著优于当前领先的方法。
代码仓库
MediaBrain-SJTU/GSC
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-1 | GSC-SGR | Image-to-text R@1: 42.1 Image-to-text R@10: 77.7 Image-to-text R@5: 68.4 R-Sum: 375.1 Text-to-image R@1: 42.2 Text-to-image R@10: 77.1 Text-to-image R@5: 67.6 |
| cross-modal-retrieval-with-noisy-2 | GSC-SGR | Image-to-text R@1: 78.3 Image-to-text R@10: 97.8 Image-to-text R@5: 94.6 R-Sum: 505.8 Text-to-image R@1: 60.1 Text-to-image R@10: 90.5 Text-to-image R@5: 84.5 |
| cross-modal-retrieval-with-noisy-3 | GSC-SGR | Image-to-text R@1: 79.5 Image-to-text R@10: 98.9 Image-to-text R@5: 96.4 R-Sum: 525.7 Text-to-image R@1: 64.4 Text-to-image R@10: 95.9 Text-to-image R@5: 90.6 |