3 个月前

DetCLIPv3:迈向通用生成式开放词汇目标检测

DetCLIPv3:迈向通用生成式开放词汇目标检测

摘要

现有的开放词汇目标检测方法通常需要用户预先定义类别集合,这在很大程度上限制了其应用场景。本文提出DetCLIPv3,一种高性能的目标检测模型,不仅在开放词汇目标检测任务中表现优异,还具备为检测到的物体生成层次化标签的能力。DetCLIPv3具有三个核心设计:1. 多功能模型架构:我们构建了一个稳健的开放集检测框架,并通过引入描述生成头(caption head)进一步赋予其生成能力,从而实现检测与描述的联合优化;2. 高信息密度数据:我们设计了一种自动标注流水线,利用视觉大语言模型(visual large language model)对大规模图像-文本对中的描述进行精细化优化,为训练提供丰富且多粒度的物体标签;3. 高效训练策略:采用低分辨率输入的预训练阶段,使目标描述生成器能够从海量图像-文本配对数据中高效学习广泛的视觉概念;随后通过少量高分辨率样本进行微调,进一步提升检测性能。得益于上述有效设计,DetCLIPv3在开放词汇目标检测任务中展现出卓越性能:例如,采用Swin-T主干网络的模型在LVIS minival基准上实现了47.0的零样本固定平均精度(zero-shot fixed AP),分别超越GLIPv2、GroundingDINO和DetCLIPv2达18.0、19.6和6.6 AP。此外,DetCLIPv3在VG数据集的密集描述任务(dense captioning)中达到19.7 AP,创下当前最优水平,充分展现了其强大的生成能力。

基准测试

基准方法指标
object-detection-on-odinw-full-shot-13-tasksDetCLIPv3
AP: 72.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DetCLIPv3:迈向通用生成式开放词汇目标检测 | 论文 | HyperAI超神经