3 个月前

利用无监督聚类提升半监督学习的性能

利用无监督聚类提升半监督学习的性能

摘要

近期,半监督学习(Semi-Supervised Learning, SSL)在仅依赖少量标注数据的情况下,有效利用大量未标注数据方面展现出巨大潜力。本文表明,在训练过程中间歇性地完全忽略标签信息,持续整轮(epoch)进行训练,可在小样本场景下显著提升模型性能。具体而言,我们提出一种联合训练双任务的网络架构:主分类任务同时处理未标注数据与标注稀疏的数据,而辅助任务则在无任何标签的前提下,对数据进行聚类。与自监督学习中常见的手工设计预训练任务不同,我们的聚类阶段复用相同的分类网络结构与分类头,旨在缓解主任务的约束,同时在不发生过拟合的前提下,将标签信息有效传播至未标注样本。此外,在无监督学习阶段,我们引入图像旋转分类这一自监督技术,以增强训练的稳定性。实验结果表明,该方法可显著提升多种前沿半监督学习算法的性能,在多个标准半监督基准测试中均取得优异表现,例如在CIFAR-10上达到92.6%的准确率,在SVHN上达到96.9%的准确率,且每类仅使用4个标注样本。在极端低标签场景下(每类仅1、2或3个样本),性能提升尤为显著,并验证了本方法所学习到的特征具有更强的判别能力,能更有效地分离数据分布。

代码仓库

boazlern/SSClustering
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semi-supervised-image-classification-on-cifar-15Semi-MMDC
Percentage error: 28.1±5.5
semi-supervised-image-classification-on-cifar-17Semi-MMDC
Accuracy (Test): 70.84±8.1
semi-supervised-image-classification-on-cifar-6Semi-MMDC
Percentage error: 5.51±0.25
semi-supervised-image-classification-on-cifar-7Semi-MMDC
Percentage error: 7.39±0.61
semi-supervised-image-classification-on-stl-1Semi-MMDC
Accuracy: 95.22±0.29
semi-supervised-image-classification-on-svhn-1Semi-MMDC
Accuracy: 97.7±0.03
semi-supervised-image-classification-on-svhn-2Semi-MMDC
Percentage error: 3.09±0.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用无监督聚类提升半监督学习的性能 | 论文 | HyperAI超神经