摘要

半监督学习（Semi-Supervised Learning, SSL）近年来取得了显著进展，这主要得益于基于伪标签（pseudo labeling）和一致性正则化（consistency regularization）的多种方法所展现出的优异性能。然而，我们指出，现有方法在利用未标注数据方面仍存在局限性，原因在于它们通常采用预定义的或人为设定的置信度阈值，或依赖启发式调整策略，这导致模型性能受限且收敛速度较慢。为此，我们首先通过一个具有启发性的案例分析，深入探讨了理想置信度阈值与模型当前学习状态之间的关系，从而获得关键洞察。基于此分析，我们提出了一种名为FreeMatch的新方法，该方法能够根据模型的学习状态自适应地调整置信度阈值，实现更灵活、更高效的阈值控制。此外，我们进一步引入了一种自适应类别公平性正则化惩罚项，旨在促进模型在训练初期生成多样化且均衡的预测结果。大量实验表明，FreeMatch在标注数据极为稀少的情况下展现出显著优势。在CIFAR-10（每类仅1个标签）、STL-10（每类4个标签）和ImageNet（每类100个标签）三个基准数据集上，FreeMatch相较于最新的先进方法FlexMatch，分别实现了5.78%、13.59%和1.28%的错误率降低。此外，FreeMatch在处理类别不平衡的半监督学习任务中同样表现出色，显著提升了模型性能。相关代码已开源，可访问：https://github.com/microsoft/Semi-supervised-learning。

源 PDF