3 个月前

DetCLIPv2:通过词-区域对齐实现可扩展的开放词汇目标检测预训练

DetCLIPv2:通过词-区域对齐实现可扩展的开放词汇目标检测预训练

摘要

本文提出了DetCLIPv2,一种高效且可扩展的训练框架,通过利用大规模图像-文本对实现开放词汇目标检测(Open-Vocabulary Detection, OVD)。与以往依赖预训练视觉-语言模型(如CLIP)或通过伪标签机制利用图像-文本对的OVD框架不同,DetCLIPv2能够以端到端的方式,直接从海量图像-文本对中学习细粒度的词语-区域对齐关系。为实现这一目标,本文采用区域提议与文本词语之间的最大词-区域相似性,作为对比学习目标的引导信号。为了在学习广泛语义概念的同时赋予模型定位能力,DetCLIPv2在统一的数据范式下,联合使用检测、图像-文本定位以及图像-文本对数据进行混合监督训练。通过采用交替训练策略并结合低分辨率输入处理图像-文本对,DetCLIPv2能够高效且有效地利用图像-文本对数据:在训练时间相近的情况下,其使用的图像-文本对数量是DetCLIP的13倍,显著提升了模型性能。在预训练阶段使用1300万张图像-文本对后,DetCLIPv2展现出卓越的开放词汇检测能力——以Swin-T为骨干网络的DetCLIPv2在LVIS基准上实现了40.4%的零样本AP,相较于先前方法GLIP/GLIPv2/DetCLIP分别提升了14.4%、11.4%和4.5%的AP,甚至大幅超越其全监督对应模型。

基准测试

基准方法指标
object-detection-on-odinw-full-shot-13-tasksDetCLIPv2
AP: 70.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DetCLIPv2:通过词-区域对齐实现可扩展的开放词汇目标检测预训练 | 论文 | HyperAI超神经