
摘要
弱监督目标检测近年来受到广泛关注,因其在训练过程中无需依赖边界框标注。尽管该领域已取得显著进展,但弱监督检测与全监督检测之间在性能上仍存在较大差距。近期一些研究尝试利用弱监督检测器生成的伪真实标注(pseudo ground-truths)来训练全监督检测器。然而,这类方法倾向于定位物体最具代表性的局部区域,且即使图像中存在多个同类别实例,也仅针对每类寻找一个伪真实框,难以充分捕捉多实例的完整信息。为解决上述问题,本文提出一种从弱监督到全监督的框架。该框架首先基于多实例学习(Multiple Instance Learning, MIL)实现弱监督检测器。随后,提出一种伪真实标注挖掘算法(Pseudo Ground-Truth Excavation, PGE),用于识别图像中每个实例的伪真实标注。进一步地,设计了伪真实标注自适应算法(Pseudo Ground-Truth Adaptation, PGA),以对PGE生成的伪标注进行精细化优化。最终,利用这些高质量的伪真实标注训练一个全监督检测器。在具有挑战性的PASCAL VOC 2007和VOC 2012基准测试上的大量实验结果充分验证了所提框架的有效性。在VOC2007和VOC2012上,分别取得了52.4%和47.8%的mAP,显著优于此前的最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-object-detection-on-pascal | WSD+PGE+PGA+FSD2 | MAP: 47.8 |
| weakly-supervised-object-detection-on-pascal-1 | WSD+PGE+PGA+FSD2 | MAP: 52.4 |