
摘要
由于真实应用场景中标注数据成本高昂,基于伪标签机制的半监督目标检测方法备受关注。然而,处理模糊样本(confusing samples)仍具挑战性:若直接丢弃这些有价值的模糊样本,将损害模型的泛化能力;而若直接将其用于训练,则可能因不可避免的误标注问题加剧确认偏误(confirmation bias)现象。为解决该问题,本文提出一种无需进行标签修正的主动利用模糊样本的方法。具体而言,为每个模糊样本分配一个虚拟类别(Virtual Category, VC),使其即使在缺乏明确真实标签的情况下,也能安全地参与模型优化过程。该方法的核心思想在于,将训练样本与虚拟类别之间的嵌入距离设定为类间距离的下界,从而保证模型学习的稳定性与有效性。此外,本文还对定位损失函数进行了改进,以促进更高质量的边界预测。大量实验结果表明,所提出的VC学习方法显著优于现有最先进方法,尤其在标注数据极为有限的情况下表现更为突出。
代码仓库
geoffreychen777/vc
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-object-detection-on-coco-0-5 | VC | mAP: 19.46 |
| semi-supervised-object-detection-on-coco-1 | VC | mAP: 23.86 |
| semi-supervised-object-detection-on-coco-10 | VC | detector: FasterRCNN-Res50 mAP: 34.82 |
| semi-supervised-object-detection-on-coco-2 | VC | mAP: 27.70 |
| semi-supervised-object-detection-on-coco-5 | VC | mAP: 32.05 |