
摘要
半监督学习因其在融合无标签数据方面的成功而受到广泛关注。为缓解潜在错误伪标签带来的影响,现有框架通常设定固定的置信度阈值,以剔除置信度不确定的样本。这一策略虽能保障伪标签的质量,但导致对全部无标签数据的利用率相对较低。本文的核心洞察在于:只要能够识别并剔除与最高置信度类别存在混淆的类别,原本不确定的样本即可被转化为确定性样本。受此启发,我们提出一种名为 ShrinkMatch 的新方法,用于学习不确定样本。对于每个不确定样本,该方法自适应地构建一个“收缩类别空间”,该空间仅包含原始的最高置信度类别以及其余可能性较低的类别。由于在该空间中已剔除混淆类别,重新计算的最高置信度值即可满足预设的置信阈值要求。随后,我们在收缩空间内对一对强增强与弱增强样本施加一致性正则化,以学习更具判别性的特征表示。此外,考虑到不确定样本之间可靠性存在差异,且模型在训练过程中逐步优化,我们进一步设计了两种相应的重加权机制,用于处理不确定样本的损失。实验结果表明,所提方法在多个广泛采用的基准数据集上均表现出卓越的性能。代码已开源,地址为:https://github.com/LiheYoung/ShrinkMatch。
代码仓库
LiheYoung/ShrinkMatch
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-image-classification-on-cifar-6 | ShrinkMatch | Percentage error: 4.74 |
| semi-supervised-image-classification-on-cifar-7 | ShrinkMatch | Percentage error: 5.08 |
| semi-supervised-image-classification-on-cifar-8 | ShrinkMatch | Percentage error: 35.36 |
| semi-supervised-image-classification-on-cifar-9 | ShrinkMatch | Percentage error: 25.17 |
| semi-supervised-image-classification-on-stl-3 | ShrinkMatch | Accuracy: 85.98 |
| semi-supervised-image-classification-on-svhn-1 | ShrinkMatch | Accuracy: 98.04 |
| semi-supervised-image-classification-on-svhn-2 | ShrinkMatch | Percentage error: 2.51 |