
摘要
半监督学习(Semi-Supervised Learning, SSL)的核心问题在于如何有效利用未标记数据,而现有大多数方法往往过度关注高置信度样本的利用,却很少充分挖掘低置信度样本的潜力。本文提出一种新颖的方法——基于互斥一致性正则化的MutexMatch,旨在以创新方式利用低置信度样本。具体而言,高置信度样本通过传统的真阳性分类器(True-Positive Classifier)实现精确的“识别其类别”目标;而低置信度样本则被用于一个更简单的任务——通过真阴性分类器(True-Negative Classifier)轻松完成“识别其非类别”(即“它不是什么”)的预测。从这一视角出发,我们不仅有效缓解了伪标签引入的错误,还通过不相似度的一致性机制,充分挖掘了低置信度未标记数据的潜在价值。实验结果表明,MutexMatch在多个基准数据集上均取得了优异性能,涵盖CIFAR-10、CIFAR-100、SVHN、STL-10、mini-ImageNet以及Tiny-ImageNet。尤为重要的是,当标注数据极为稀缺时,该方法依然表现出显著优势,例如在CIFAR-10上仅使用20个标注样本即达到92.23%的准确率。本文代码与模型权重已开源,地址为:https://github.com/NJUyued/MutexMatch4SSL。
代码仓库
NJUyued/MutexMatch4SSL
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-image-classification-on-cifar-15 | MutexMatch (k=0.6C) | Percentage error: 7.77 |
| semi-supervised-image-classification-on-cifar-16 | MutexMatch (k=0.6C) | Percentage error: 5 |
| semi-supervised-image-classification-on-cifar-17 | MutexMatch | Accuracy (Test): 76.06 |
| semi-supervised-image-classification-on-cifar-25 | MutexMatch (k=0.6C) | Percentage error: 58.41 |
| semi-supervised-image-classification-on-cifar-7 | MutexMatch (k=0.6C) | Percentage error: 5.79 |
| semi-supervised-image-classification-on-mini-2 | MutexMatch | Accuracy: 48.04 |
| semi-supervised-image-classification-on-svhn-1 | MutexMatch (k=0.6C) | Accuracy: 97.47 |
| semi-supervised-image-classification-on-svhn-2 | MutexMatch (k=0.6C) | Percentage error: 3.45 |