
摘要
标签的获取成本高昂且有时不可靠。为降低标注成本,研究者提出了三种不同的学习策略:噪声标签学习、半监督学习和对比学习。近年来,半监督学习与对比学习已被证明能够有效提升处理含噪声标签数据集的学习性能。然而,这三个领域之间的内在联系,以及融合各自优势的潜力,目前才刚刚开始显现。本文进一步探索了三者融合的路径与优势。具体而言,我们提出了一种统一的对比半监督学习算法——CSSL(Contrastive Semi-Supervised Learning),以及一种面向噪声标签学习的新算法——CoDiM(Contrastive DivideMix)。CSSL融合了传统半监督学习与对比学习的技术优势,并进一步优化以适配CoDiM,使其能够从多种类型和不同程度的标签噪声中稳健学习。实验结果表明,CoDiM在多个基准数据集上均带来持续的性能提升,并取得了当前最优的实验结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-mini-webvision-1-0 | CoDiM-Self (Inception-ResNet-v2) | ImageNet Top-1 Accuracy: 77.24 ImageNet Top-5 Accuracy: 92.48 Top-1 Accuracy: 80.12 Top-5 Accuracy: 93.52 |
| image-classification-on-mini-webvision-1-0 | CoDiM-Sup (Inception-ResNet-v2) | ImageNet Top-1 Accuracy: 76.52 ImageNet Top-5 Accuracy: 91.96 Top-1 Accuracy: 80.88 Top-5 Accuracy: 92.48 |