3 个月前

LP-OVOD:通过线性探测实现开放词汇目标检测

LP-OVOD:通过线性探测实现开放词汇目标检测

摘要

本文针对开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)这一具有挑战性的问题展开研究。在OVOD任务中,目标检测器需在测试图像中识别出训练过程中见过和未见过的类别,而训练阶段并不提供未见类别的标注样本。目前典型的OVOD方法是利用CLIP模型的联合文本-图像嵌入,将候选框(box proposals)分配给与其最接近的文本标签。然而,该方法存在一个关键问题:许多低质量候选框(如过度覆盖或覆盖不足的物体框)与高质量候选框在CLIP的相似度得分上相同,因为CLIP在训练过程中并未学习精确的物体位置信息。为解决这一问题,本文提出一种新方法——LP-OVOD,通过在从与新文本最相关的区域提案中检索得到的伪标签(pseudo labels)上训练一个Sigmoid线性分类器,自动剔除低质量候选框。在COCO数据集上的实验结果表明,所提方法显著优于现有最先进方法,在使用ResNet50作为主干网络、不依赖外部数据集且训练阶段无需知晓新类别的情况下,实现了$\textbf{40.5}$的$\text{AP}_{novel}$指标。相关代码将开源,地址为:https://github.com/VinAIResearch/LP-OVOD。

代码仓库

vinairesearch/lp-ovod
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-object-detection-on-mscocoLP-OVOD
AP 0.5: 40.5
open-vocabulary-object-detection-on-mscocoLP-OVOD (OWL-ViT Proposals)
AP 0.5: 44.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LP-OVOD:通过线性探测实现开放词汇目标检测 | 论文 | HyperAI超神经