
摘要
弱监督学习通过减少训练过程中对强标注数据的依赖,已成为目标检测领域极具吸引力的技术手段。然而,该方法仍面临三大核心挑战:(1)目标实例之间的区分存在歧义;(2)检测器倾向于关注具有判别性的局部区域,而非完整的目标对象;(3)由于缺乏真实标注,为保证高召回率,目标候选区域必须冗余,导致显著的内存消耗。解决这些问题极具难度,往往需要消除不确定性并避免引入琐碎的解决方案。为应对上述挑战,我们提出了一种兼具实例感知与上下文聚焦能力的统一框架。该框架引入了实例感知的自训练算法与可学习的Concrete DropBlock机制,并设计了一种内存高效的顺序批次反向传播策略。所提方法在COCO数据集上取得了12.1% AP和24.8% AP₅₀的先进性能,在VOC 2007和VOC 2012数据集上分别达到54.9% AP和52.1% AP,显著超越现有基线模型。此外,本方法是首个针对基于ResNet的模型以及弱监督视频目标检测任务进行系统性基准测试的工作。相关代码、模型及详细信息将公开发布于:https://github.com/NVlabs/wetectron。
代码仓库
ppengtang/pcl.pytorch
pytorch
GitHub 中提及
NVlabs/wetectron
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-object-detection-on-coco-2 | wetectron(single-model, VGG16) | AP50: 24.8 |
| weakly-supervised-object-detection-on-pascal | wetectron(single-model) | MAP: 52.1 |
| weakly-supervised-object-detection-on-pascal-1 | wetectron (single mode, 07+12) | MAP: 58.1 |
| weakly-supervised-object-detection-on-pascal-1 | wetectron(single-model) | MAP: 54.9 |