8 个月前

摘要

在现实世界中应用半监督学习的一个基本限制是假设未标记的测试数据仅包含之前在已标记的训练数据中遇到过的类别。然而，对于野外数据（data in-the-wild），这一假设很少成立，因为属于新类别的实例可能在测试时出现。本文引入了一种新的开放世界半监督学习设置，该设置形式化了未标记测试数据中可能出现新类别的概念。在这种新的设置下，目标是解决已标记数据和未标记数据之间的类别分布不匹配问题，在测试时每个输入实例要么需要被分类到现有的某个类别中，要么需要初始化一个新的未见过的类别。为了解决这一具有挑战性的问题，我们提出了ORCA，一种端到端的深度学习方法，通过引入不确定性自适应边界机制来规避因学习已见类别特征的速度快于新类别特征而导致的偏向已见类别的偏差。通过这种方式，ORCA 减小了已见类别与新类别之间的类内方差差距。图像分类数据集和单细胞注释数据集上的实验表明，ORCA 一致优于其他基线方法，在ImageNet 数据集上对已见类别的性能提升了25%，对新类别的性能提升了96%。

源 PDF