6 个月前

摘要

标签平滑（Label Smoothing, LS）是一种新兴的学习范式，其通过硬标签与均匀分布的软标签的加权平均来优化模型训练。已有研究表明，LS在使用硬标签进行训练时可作为正则化手段，从而提升模型的泛化能力。后续研究进一步发现，LS在处理噪声标签时也有助于增强模型的鲁棒性。然而，我们在高噪声标签环境下观察到，LS的优势会逐渐消失。直观来看，这是由于当噪声率较高时，后验概率 $\mathbb{P}(\text{噪声标签} \mid X)$ 的熵显著增加，此时再应用标签平滑容易导致对后验估计的“过度平滑”（over-smoothing）。我们进一步发现，文献中若干针对噪声标签学习的解决方案实际上更接近于“负标签平滑”（Negative Label Smoothing, NLS），其作用机制与LS相反：NLS采用负权重将硬标签与软标签进行组合！我们系统地分析了LS与NLS在噪声标签学习场景下的性质。在诸多已知特性之外，我们从理论上证明：当标签噪声率较高时，NLS相较LS更具优势。此外，我们在多个基准数据集上开展了广泛的实验，结果有力支持了我们的理论发现。相关代码已公开发布于：https://github.com/UCSC-REAL/negative-label-smoothing。