
摘要
半监督学习(SSL)是解决有监督学习标注瓶颈的主要方法之一。近年来,SSL 方法能够有效利用大量未标注数据来提高性能,同时仅依赖少量标注数据。大多数 SSL 方法的一个常见假设是,标注数据和未标注数据来自相同的数据分布。然而,在许多实际场景中,这一假设很难成立,这限制了它们的应用范围。在本研究中,我们尝试解决具有挑战性的开放世界 SSL 问题,该问题不作此假设。在开放世界 SSL 问题中,目标是识别已知类别的样本,并同时检测和聚类未标注数据中存在的新类别样本。本研究引入了一种名为 OpenLDN 的方法,该方法利用成对相似性损失来发现新类别。通过双层优化规则,成对相似性损失能够利用标注数据集中的信息隐式地聚类新类别样本,同时识别已知类别的样本。在发现新类别之后,OpenLDN 将开放世界 SSL 问题转化为标准的 SSL 问题,从而利用现有的 SSL 方法实现额外的性能提升。我们的广泛实验表明,OpenLDN 在多个流行的分类基准上优于当前最先进的方法,并且提供了更好的准确率/训练时间权衡。
代码仓库
nayeemrizve/openldn
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| open-world-semi-supervised-learning-on-1 | OpenLDN (ResNet-50) | All accuracy (50% Labeled): 79.1 Novel accuracy (50% Labeled): 68.6 Seen accuracy (50% Labeled): 89.6 |
| open-world-semi-supervised-learning-on-cifar | OpenLDN (ResNet-18) | All accuracy (10% Labeled): 92.8 All accuracy (50% Labeled): 95.4 Novel accuracy (10% Labeled): 93.2 Novel accuracy (50% Labeled): 95.1 Seen accuracy (10% Labeled): 92.4 Seen accuracy (50% Labeled): 95.7 |
| open-world-semi-supervised-learning-on-cifar-1 | OpenLDN (ResNet-18) | All accuracy (10% Labeled): 47.7 All accuracy (50% Labeled): 60.1 Novel accuracy (10% Labeled): 40.0 Novel accuracy (50% Labeled): 46.8 Seen accuracy (10% Labeled): 55.0 Seen accuracy (50% Labeled): 73.5 |