4 个月前

具有协作混合分配训练的DETR模型

具有协作混合分配训练的DETR模型

摘要

在本文中,我们观察到在DETR中使用一对一集合匹配时,正样本查询数量过少会导致编码器输出的监督稀疏,这显著损害了编码器的判别特征学习;而解码器中的注意力学习则会因正样本查询过多而受到影响。为了解决这一问题,我们提出了一种新颖的合作混合分配训练方案,即$\mathcal{C}$o-DETR,通过多样化的标签分配方式来学习更高效和有效的DETR基础检测器。该新训练方案可以通过训练多个并行辅助头(这些辅助头由一对多标签分配方法如ATSS和Faster RCNN监督)轻松增强端到端检测器中编码器的学习能力。此外,我们还通过从这些辅助头中提取正坐标来生成额外定制的正样本查询,以提高解码器中正样本的训练效率。在推理阶段,这些辅助头被丢弃,因此我们的方法不会增加原始检测器的额外参数和计算成本,同时也不需要手工设计的非极大值抑制(NMS)。我们进行了广泛的实验,评估了所提方法在DETR变体上的有效性,包括DAB-DETR、Deformable-DETR和DINO-Deformable-DETR。结果显示,在Swin-L骨干网络的支持下,最先进的DINO-Deformable-DETR的COCO验证集AP可以从58.5%提升至59.5%。令人惊讶的是,在ViT-L骨干网络的支持下,我们在COCO测试开发集上达到了66.0%的AP,在LVIS验证集上达到了67.9%的AP,以明显的优势超越了之前的方法,并且模型规模更小。代码已开源,可访问以下链接获取:\url{https://github.com/Sense-X/Co-DETR}。

基准测试

基准方法指标
instance-segmentation-on-cocoCo-DETR
AP50: 80.2
AP75: 63.4
APL: 72.0
APM: 60.1
APS: 41.6
mask AP: 57.1
instance-segmentation-on-coco-minivalCo-DETR
AP50: 79.7
AP75: 62.8
APL: 74.6
APM: 59.7
APS: 38.9
mask AP: 56.6
instance-segmentation-on-lvis-v1-0-valCo-DETR (single-scale)
mask AP: 60.7
object-detection-on-cocoCo-DETR (Swin-L)
Params (M): 218
box mAP: 64.8
object-detection-on-cocoCo-DETR
Params (M): 304
box mAP: 66.0
object-detection-on-coco-minivalCo-DETR
Params (M): 348
box AP: 65.9
object-detection-on-coco-minivalCo-DETR (Swin-L)
Params (M): 218
box AP: 64.7
object-detection-on-lvis-v1-0-minivalCo-DETR (single-scale)
box AP: 72.0
object-detection-on-lvis-v1-0-valCo-DETR (single-scale)
box AP: 68.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供