
摘要
使模型能够识别广泛的真实世界类别一直是目标检测领域的长期追求。通过利用视觉-语言模型的泛化能力,当前的开放世界检测器能够在训练时仅涉及有限类别的情况下,识别更广泛的词汇范围。然而,当训练期间的类别词汇规模扩展到真实世界的水平时,先前与粗略类别名称对齐的分类器显著降低了这些检测器的识别性能。在本文中,我们介绍了一种名为Prova的多模态原型分类器,用于大规模词汇的目标检测。Prova提取全面的多模态原型作为对齐分类器的初始化,以解决大规模词汇目标识别失败的问题。在V3Det数据集上,这一简单方法在监督和开放词汇设置下,通过仅增加投影层的方式,大幅提升了单阶段、两阶段以及DETR基础检测器的性能。特别是在V3Det数据集的监督设置下,Prova分别将Faster R-CNN、FCOS和DINO的性能提高了3.3、6.2和2.9个平均精度(AP)点。对于开放词汇设置,Prova实现了新的最先进性能,基类AP为32.8,新类AP为11.0,分别比之前的方法提高了2.6和4.3个AP点。
代码仓库
row11n/prova
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| open-vocabulary-object-detection-on-lvis-v1-0 | Prova (Swin-Base) | AP novel-LVIS base training: 31.5 |