4 个月前

OV-DQUO:开放词汇量DETR结合去噪文本查询训练和开放世界未知对象监督

OV-DQUO:开放词汇量DETR结合去噪文本查询训练和开放世界未知对象监督

摘要

开放词汇检测旨在识别超出训练基础类别范围的新类别对象。然而,现有的基于基础类别数据训练的开放词汇检测器往往对已训练的类别赋予更高的置信度,并将新类别与背景混淆。为了解决这一问题,我们提出了一种新的方法——OV-DQUO(\textbf{O}pen-\textbf{V}ocabulary DETR with \textbf{D}enoising text \textbf{Q}uery training and open-world \textbf{U}nknown \textbf{O}bjects supervision),即具有去噪文本查询训练和开放世界未知对象监督的开放词汇DETR。具体而言,我们引入了一种通配符匹配方法。该方法使检测器能够从开放世界检测器识别的未知对象及其具有一般语义的文本嵌入对中学习,从而缓解基础类别和新类别之间的置信度偏差。此外,我们提出了一种去噪文本查询训练策略。该策略通过对比学习合成了来自开放世界未知对象的前景和背景查询框对,以增强检测器区分新类别对象与背景的能力。我们在具有挑战性的OV-COCO和OV-LVIS基准上进行了广泛的实验,分别在新类别上取得了45.6 AP50和39.3 mAP的新最先进结果,而无需额外的训练数据。模型和代码已发布在\url{https://github.com/xiaomoguhz/OV-DQUO}。

代码仓库

xiaomoguhz/ov-dquo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-object-detection-on-lvis-v1-0OV-DQUO(ViT-L/14)
AP novel-LVIS base training: 39.3
open-vocabulary-object-detection-on-lvis-v1-0OV-DQUO(ViT-B/16)
AP novel-LVIS base training: 29.7
open-vocabulary-object-detection-on-mscocoOV-DQUO(R50)
AP 0.5: 39.2
open-vocabulary-object-detection-on-mscocoOV-DQUO(RN50x4)
AP 0.5: 45.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OV-DQUO:开放词汇量DETR结合去噪文本查询训练和开放世界未知对象监督 | 论文 | HyperAI超神经