
摘要
标签平滑(Label Smoothing, LS)是一种新兴的学习范式,其通过硬标签与均匀分布的软标签的加权平均来优化模型训练。已有研究表明,LS在使用硬标签进行训练时可作为正则化手段,从而提升模型的泛化能力。后续研究进一步发现,LS在处理噪声标签时也有助于增强模型的鲁棒性。然而,我们在高噪声标签环境下观察到,LS的优势会逐渐消失。直观来看,这是由于当噪声率较高时,后验概率 $\mathbb{P}(\text{噪声标签} \mid X)$ 的熵显著增加,此时再应用标签平滑容易导致对后验估计的“过度平滑”(over-smoothing)。我们进一步发现,文献中若干针对噪声标签学习的解决方案实际上更接近于“负标签平滑”(Negative Label Smoothing, NLS),其作用机制与LS相反:NLS采用负权重将硬标签与软标签进行组合!我们系统地分析了LS与NLS在噪声标签学习场景下的性质。在诸多已知特性之外,我们从理论上证明:当标签噪声率较高时,NLS相较LS更具优势。此外,我们在多个基准数据集上开展了广泛的实验,结果有力支持了我们的理论发现。相关代码已公开发布于:https://github.com/UCSC-REAL/negative-label-smoothing。
代码仓库
ucsc-real/negative-label-smoothing
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-clothing1m | Negative Label Smoothing (NLS) | Accuracy: 74.24% |
| learning-with-noisy-labels-on-cifar-100n | Negative-LS | Accuracy (mean): 58.59 |
| learning-with-noisy-labels-on-cifar-10n | Negative-LS | Accuracy (mean): 91.97 |
| learning-with-noisy-labels-on-cifar-10n-1 | Negative-LS | Accuracy (mean): 90.29 |
| learning-with-noisy-labels-on-cifar-10n-2 | Negative-LS | Accuracy (mean): 90.37 |
| learning-with-noisy-labels-on-cifar-10n-3 | Negative-LS | Accuracy (mean): 90.13 |