6 个月前

摘要

本文提出了DetCLIPv2，一种高效且可扩展的训练框架，通过利用大规模图像-文本对实现开放词汇目标检测（Open-Vocabulary Detection, OVD）。与以往依赖预训练视觉-语言模型（如CLIP）或通过伪标签机制利用图像-文本对的OVD框架不同，DetCLIPv2能够以端到端的方式，直接从海量图像-文本对中学习细粒度的词语-区域对齐关系。为实现这一目标，本文采用区域提议与文本词语之间的最大词-区域相似性，作为对比学习目标的引导信号。为了在学习广泛语义概念的同时赋予模型定位能力，DetCLIPv2在统一的数据范式下，联合使用检测、图像-文本定位以及图像-文本对数据进行混合监督训练。通过采用交替训练策略并结合低分辨率输入处理图像-文本对，DetCLIPv2能够高效且有效地利用图像-文本对数据：在训练时间相近的情况下，其使用的图像-文本对数量是DetCLIP的13倍，显著提升了模型性能。在预训练阶段使用1300万张图像-文本对后，DetCLIPv2展现出卓越的开放词汇检测能力——以Swin-T为骨干网络的DetCLIPv2在LVIS基准上实现了40.4%的零样本AP，相较于先前方法GLIP/GLIPv2/DetCLIP分别提升了14.4%、11.4%和4.5%的AP，甚至大幅超越其全监督对应模型。

源 PDF