4 个月前

无监督数据增强以提高一致性训练

无监督数据增强以提高一致性训练

摘要

半监督学习最近在改进深度学习模型方面展现出巨大潜力,尤其是在标记数据稀缺的情况下。近期方法中普遍采用的一种策略是在大量未标记数据上进行一致性训练,以约束模型预测对输入噪声保持不变。在这项工作中,我们提出了一种新的视角,探讨如何有效地对未标记样本施加噪声,并认为噪声的质量,特别是由高级数据增强方法产生的噪声,在半监督学习中起着关键作用。通过用RandAugment和反向翻译(back-translation)等高级数据增强方法替代简单的噪声操作,我们的方法在同一一致性训练框架下,在六个语言任务和三个视觉任务中带来了显著的改进。在IMDb文本分类数据集上,仅使用20个标记样本时,我们的方法达到了4.20的错误率,优于使用25,000个标记样本训练的最先进模型。在标准的半监督学习基准测试CIFAR-10上,我们的方法超越了所有先前的方法,在仅有250个样本的情况下实现了5.43的错误率。此外,我们的方法与迁移学习结合效果良好,例如在从BERT微调时,在高数据量场景下也能带来改进,如ImageNet数据集,在只有10%标记数据或使用完整的标记集加上130万个额外未标记样本时均表现出色。代码可在https://github.com/google-research/uda 获取。

代码仓库

tomgoter/nlp_finalproject
tf
GitHub 中提及
bhacquin/UDA_pytorch
pytorch
GitHub 中提及
leblancdaniel/paraphraser
tf
GitHub 中提及
A-Telfer/AugKey
GitHub 中提及
SanghunYun/UDA_pytorch
pytorch
GitHub 中提及
rwbfd/OpenCompetitionV2
pytorch
GitHub 中提及
PhamNguyen97/TSA_pytorch
pytorch
GitHub 中提及
ChingHuanChiu/sensitive
tf
GitHub 中提及
kekmodel/UDA-pytorch
pytorch
GitHub 中提及
uizard-technologies/realmix
tf
GitHub 中提及
PaulEmmanuelSotir/DeepCV
pytorch
GitHub 中提及
SaraAmd/Semi-Supervised-Learning
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetResNet-50 (UDA)
Top 1 Accuracy: 79.04%
semi-supervised-image-classification-on-2UDA
Top 5 Accuracy: 88.52
semi-supervised-image-classification-on-cifarUDA
Percentage error: 5.27
semi-supervised-image-classification-on-svhnUDA
Accuracy: 97.54
sentiment-analysis-on-amazon-review-fullBERT large finetune UDA
Accuracy: 62.88
sentiment-analysis-on-amazon-review-fullBERT large
Accuracy: 65.83
sentiment-analysis-on-amazon-review-polarityBERT large
Accuracy: 97.37
sentiment-analysis-on-amazon-review-polarityBERT large finetune UDA
Accuracy: 96.5
sentiment-analysis-on-imdbBERT large finetune UDA
Accuracy: 95.8
sentiment-analysis-on-imdbBERT large
Accuracy: 95.49
sentiment-analysis-on-yelp-binaryBERT large
Error: 1.89
sentiment-analysis-on-yelp-binaryBERT large finetune UDA
Error: 2.05
sentiment-analysis-on-yelp-fine-grainedBERT large finetune UDA
Error: 32.08
sentiment-analysis-on-yelp-fine-grainedBERT large
Error: 29.32
text-classification-on-amazon-2BERT Finetune + UDA
Error: 3.5
text-classification-on-amazon-5BERT Finetune + UDA
Error: 37.12
text-classification-on-dbpediaBERT large
Error: 0.68
text-classification-on-dbpediaBERT large UDA
Error: 1.09
text-classification-on-yelp-2BERT Finetune + UDA
Accuracy: 97.95%
text-classification-on-yelp-5BERT Finetune + UDA
Accuracy: 67.92%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督数据增强以提高一致性训练 | 论文 | HyperAI超神经