
摘要
半监督学习(Semi-Supervised Learning, SSL)算法在标注数据稀缺而未标注数据丰富的训练场景中展现出巨大潜力。然而,我们的实验揭示了现有SSL算法存在的若干局限性,尤其是当标注数据与未标注数据的分布存在差异时,性能显著下降。为应对上述问题,我们提出了RealMix方法,该方法在不同标注集与未标注集规模的标准基准数据集上均取得了当前最优的性能表现,同时有效克服了前述挑战。值得注意的是,RealMix在仅使用250个标签的情况下,于CIFAR10数据集上实现了9.79%的错误率,且是本次测试中唯一一种在标注数据与未标注数据分布存在显著差异时仍能超越基线性能的SSL方法。RealMix展示了半监督学习在实际应用中——尤其是在数据和计算资源均受限的场景下——的可行性,并为未来具有实际应用价值的半监督学习研究提供了重要指导。
代码仓库
uizard-technologies/realmix
官方
tf
GitHub 中提及
MindCode-4/code-4/tree/main/rag
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-image-classification-on-3 | RealMix | Percentage correct: 90.21 |
| semi-supervised-image-classification-on-cifar | RealMix | Percentage error: 6.38 |
| semi-supervised-image-classification-on-cifar-6 | EnAET | Percentage error: 7.6 |
| semi-supervised-image-classification-on-cifar-6 | RealMix | Percentage error: 9.79 |
| semi-supervised-image-classification-on-svhn-1 | RealMix | Accuracy: 96.47 |