6 个月前

摘要

标注数据的稀缺性是深度学习面临的关键瓶颈。半监督学习（Semi-Supervised Learning, SSL）通过伪标签机制，为利用未标注数据提供了一条有前景的路径。然而，当标注数据量极小（例如每类仅有少量标注样本）时，现有SSL方法性能显著下降且表现不稳定，这可能源于所生成伪标签质量较低。针对这一问题，本文提出一种新型SSL方法——DP-SSL，其核心在于引入一种创新的数据编程（Data Programming, DP）框架，用于为未标注数据生成概率化标签。与现有DP方法依赖人工专家设计初始标注函数（Labeling Functions, LFs）不同，本文提出一种基于多选学习（Multiple-Choice Learning, MCL）的自动化方法，能够在SSL范式下从零开始自动生成LFs。利用这些LFs产生的噪声标签，我们进一步设计了一个标签模型，以有效解决噪声标签之间的冲突与重叠问题，并最终推断出未标注样本的可靠概率标签。在四个标准SSL基准数据集上的大量实验表明，DP-SSL能够为未标注数据生成高质量且可靠的标签，在测试集上实现优于现有SSL方法的分类性能，尤其在标注样本极为有限的情况下表现突出。具体而言，在仅使用40个标注样本的CIFAR-10数据集上，DP-SSL在未标注数据上的标注准确率达到93.82%，测试集分类准确率达93.46%，均超过当前最优（SOTA）水平。

源 PDF