4 个月前

全面多模态原型是大规模词汇对象检测的有效分类器

全面多模态原型是大规模词汇对象检测的有效分类器

摘要

使模型能够识别广泛的真实世界类别一直是目标检测领域的长期追求。通过利用视觉-语言模型的泛化能力,当前的开放世界检测器能够在训练时仅涉及有限类别的情况下,识别更广泛的词汇范围。然而,当训练期间的类别词汇规模扩展到真实世界的水平时,先前与粗略类别名称对齐的分类器显著降低了这些检测器的识别性能。在本文中,我们介绍了一种名为Prova的多模态原型分类器,用于大规模词汇的目标检测。Prova提取全面的多模态原型作为对齐分类器的初始化,以解决大规模词汇目标识别失败的问题。在V3Det数据集上,这一简单方法在监督和开放词汇设置下,通过仅增加投影层的方式,大幅提升了单阶段、两阶段以及DETR基础检测器的性能。特别是在V3Det数据集的监督设置下,Prova分别将Faster R-CNN、FCOS和DINO的性能提高了3.3、6.2和2.9个平均精度(AP)点。对于开放词汇设置,Prova实现了新的最先进性能,基类AP为32.8,新类AP为11.0,分别比之前的方法提高了2.6和4.3个AP点。

代码仓库

row11n/prova
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-object-detection-on-lvis-v1-0Prova (Swin-Base)
AP novel-LVIS base training: 31.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
全面多模态原型是大规模词汇对象检测的有效分类器 | 论文 | HyperAI超神经