3 个月前

从自然不平衡伪标签中进行去偏学习

从自然不平衡伪标签中进行去偏学习

摘要

伪标签(pseudo-labels)是指由在有标签源数据上训练的分类器对无标签目标数据所作出的高置信度预测。它们广泛应用于模型适应无标签数据的场景中,例如在半监督学习设置下。我们的核心洞察是:即使在源数据与目标数据均保持平衡的情况下,由于数据本身的内在相似性,伪标签本身天然存在类别不平衡问题。若我们能够针对这一此前未被充分认识的、由伪标签引发的不平衡分类问题进行处理,而非依赖真实标签进行训练,便有望消除因伪标签导致的模型对虚假多数类的偏差。为此,我们提出了一种新颖且高效的去偏学习方法,该方法基于反事实推理(counterfactual reasoning)与自适应边界(adaptive margins)机制:前者用于消除分类器输出响应的偏差,后者则根据伪标签的不平衡程度,动态调整各类别的分类边界。通过大量实验验证,我们所提出的简单去偏学习方法在ImageNet-1K数据集上显著超越现有最先进水平:在仅使用0.2%标注数据的半监督学习场景下,准确率提升达26%;在零样本学习(zero-shot learning)任务中,准确率提升达9%。相关代码已公开,地址为:https://github.com/frank-xwang/debiased-pseudo-labeling。

代码仓库

frank-xwang/debiased-pseudo-labeling
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-image-classification-on-imagenet-0DebiasPL (ResNet50)
Accuracy: 68.3%
semi-supervised-image-classification-on-1DebiasPL (ResNet-50)
Top 1 Accuracy: 71.3%
semi-supervised-image-classification-on-16DebiasPL (ResNet-50)
ImageNet Top-1 Accuracy: 69.6%
semi-supervised-image-classification-on-cifar-6DebiasPL (w/ FixMatch)
Percentage error: 4.6
semi-supervised-image-classification-on-cifar-7DebiasPL (w/ FixMatch)
Percentage error: 5.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从自然不平衡伪标签中进行去偏学习 | 论文 | HyperAI超神经