3 个月前

DP-SSL:面向少量标注样本的鲁棒半监督学习

DP-SSL:面向少量标注样本的鲁棒半监督学习

摘要

标注数据的稀缺性是深度学习面临的关键瓶颈。半监督学习(Semi-Supervised Learning, SSL)通过伪标签机制,为利用未标注数据提供了一条有前景的路径。然而,当标注数据量极小(例如每类仅有少量标注样本)时,现有SSL方法性能显著下降且表现不稳定,这可能源于所生成伪标签质量较低。针对这一问题,本文提出一种新型SSL方法——DP-SSL,其核心在于引入一种创新的数据编程(Data Programming, DP)框架,用于为未标注数据生成概率化标签。与现有DP方法依赖人工专家设计初始标注函数(Labeling Functions, LFs)不同,本文提出一种基于多选学习(Multiple-Choice Learning, MCL)的自动化方法,能够在SSL范式下从零开始自动生成LFs。利用这些LFs产生的噪声标签,我们进一步设计了一个标签模型,以有效解决噪声标签之间的冲突与重叠问题,并最终推断出未标注样本的可靠概率标签。在四个标准SSL基准数据集上的大量实验表明,DP-SSL能够为未标注数据生成高质量且可靠的标签,在测试集上实现优于现有SSL方法的分类性能,尤其在标注样本极为有限的情况下表现突出。具体而言,在仅使用40个标注样本的CIFAR-10数据集上,DP-SSL在未标注数据上的标注准确率达到93.82%,测试集分类准确率达93.46%,均超过当前最优(SOTA)水平。

基准测试

基准方法指标
semi-supervised-image-classification-on-cifarDP-SSL
Percentage error: 4.23±0.20
semi-supervised-image-classification-on-cifar-2DP-SSL
Percentage error: 22.24±0.31
semi-supervised-image-classification-on-cifar-6DP-SSL
Percentage error: 4.78±0.26
semi-supervised-image-classification-on-cifar-7DP-SSL
Percentage error: 6.54±0.98
semi-supervised-image-classification-on-cifar-8DP-SSL
Percentage error: 43.17±1.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DP-SSL:面向少量标注样本的鲁棒半监督学习 | 论文 | HyperAI超神经