6 个月前

摘要

在研究主动学习时，我们重点关注标注样本数量（预算规模）与高效查询策略之间的关系。理论分析表明，这一关系呈现出类似相变的行为特征：当预算较小时，最具代表性的样本最适合作为查询对象；而当预算较大时，非典型或不具代表性的样本反而更值得查询。综合实证证据显示，这一现象在常见的分类模型中同样存在。基于此，我们提出一种名为 TypiClust 的深度主动学习策略，特别适用于低预算场景。在多种网络架构与图像数据集上的对比实证研究中，TypiClust 在低预算条件下显著优于所有其他主动学习方法。进一步地，将 TypiClust 应用于半监督学习框架时，性能提升更为显著。具体而言，在 CIFAR-10 数据集上，仅使用 TypiClust 选取的 10 个标注样本进行训练，即可使当前最先进的半监督方法达到 93.2% 的准确率，相较随机选择提升了 39.4%。代码已开源，地址为：https://github.com/avihu111/TypiClust。

源 PDF