7 个月前

摘要

半监督学习最近在改进深度学习模型方面展现出巨大潜力，尤其是在标记数据稀缺的情况下。近期方法中普遍采用的一种策略是在大量未标记数据上进行一致性训练，以约束模型预测对输入噪声保持不变。在这项工作中，我们提出了一种新的视角，探讨如何有效地对未标记样本施加噪声，并认为噪声的质量，特别是由高级数据增强方法产生的噪声，在半监督学习中起着关键作用。通过用RandAugment和反向翻译（back-translation）等高级数据增强方法替代简单的噪声操作，我们的方法在同一一致性训练框架下，在六个语言任务和三个视觉任务中带来了显著的改进。在IMDb文本分类数据集上，仅使用20个标记样本时，我们的方法达到了4.20的错误率，优于使用25,000个标记样本训练的最先进模型。在标准的半监督学习基准测试CIFAR-10上，我们的方法超越了所有先前的方法，在仅有250个样本的情况下实现了5.43的错误率。此外，我们的方法与迁移学习结合效果良好，例如在从BERT微调时，在高数据量场景下也能带来改进，如ImageNet数据集，在只有10%标记数据或使用完整的标记集加上130万个额外未标记样本时均表现出色。代码可在https://github.com/google-research/uda 获取。

源 PDF