
摘要
当前的目标检测器由于检测数据集规模较小,其词汇量受到限制。相比之下,图像分类器的数据集更大且更容易收集,因此可以处理更大的词汇量。我们提出了一种名为Detic的方法,该方法通过在图像分类数据上训练检测器的分类器,从而将检测器的词汇量扩展到数万个概念。与以往的工作不同,Detic不需要复杂的分配方案来根据模型预测将图像标签分配给边界框,这使得它更容易实现,并且兼容多种检测架构和骨干网络。我们的实验结果表明,即使对于没有边界框注释的类别,Detic也能生成优秀的检测器。在开放词汇和长尾检测基准测试中,Detic的表现均优于先前的工作。在开放词汇LVIS基准测试中,Detic为所有类别提供了2.4个mAP(平均精度均值)的提升,为新类别提供了8.3个mAP的提升。在标准LVIS基准测试中,当对所有类别或仅罕见类别进行评估时,Detic分别获得了41.7个mAP的成绩,从而缩小了样本较少的对象类别的性能差距。首次,我们使用ImageNet数据集中全部二万一千个类别训练了一个检测器,并展示了该检测器无需微调即可泛化到新的数据集上。代码已发布在\url{https://github.com/facebookresearch/Detic}。
代码仓库
facebookresearch/Detic
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-domain-few-shot-object-detection-on | Detic-FT | mAP: 12.0 |
| cross-domain-few-shot-object-detection-on-1 | Detic-FT | mAP: 22.3 |
| cross-domain-few-shot-object-detection-on-2 | Detic-FT | mAP: 15.4 |
| cross-domain-few-shot-object-detection-on-3 | Detic-FT | mAP: 17.9 |
| cross-domain-few-shot-object-detection-on-4 | Detic-FT | mAP: 16.8 |
| cross-domain-few-shot-object-detection-on-neu | Detic-FT | mAP: 16.8 |
| open-vocabulary-object-detection-on | Detic | AP 0.5: 42.2 mask AP50: 42.2 |
| open-vocabulary-object-detection-on-lvis-v1-0 | Detic | AP novel-LVIS base training: 17.8 |
| open-vocabulary-object-detection-on-mscoco | Detic | AP 0.5: 27.8 |