
摘要
在本文中,我们观察到在DETR中使用一对一集合匹配时,正样本查询数量过少会导致编码器输出的监督稀疏,这显著损害了编码器的判别特征学习;而解码器中的注意力学习则会因正样本查询过多而受到影响。为了解决这一问题,我们提出了一种新颖的合作混合分配训练方案,即$\mathcal{C}$o-DETR,通过多样化的标签分配方式来学习更高效和有效的DETR基础检测器。该新训练方案可以通过训练多个并行辅助头(这些辅助头由一对多标签分配方法如ATSS和Faster RCNN监督)轻松增强端到端检测器中编码器的学习能力。此外,我们还通过从这些辅助头中提取正坐标来生成额外定制的正样本查询,以提高解码器中正样本的训练效率。在推理阶段,这些辅助头被丢弃,因此我们的方法不会增加原始检测器的额外参数和计算成本,同时也不需要手工设计的非极大值抑制(NMS)。我们进行了广泛的实验,评估了所提方法在DETR变体上的有效性,包括DAB-DETR、Deformable-DETR和DINO-Deformable-DETR。结果显示,在Swin-L骨干网络的支持下,最先进的DINO-Deformable-DETR的COCO验证集AP可以从58.5%提升至59.5%。令人惊讶的是,在ViT-L骨干网络的支持下,我们在COCO测试开发集上达到了66.0%的AP,在LVIS验证集上达到了67.9%的AP,以明显的优势超越了之前的方法,并且模型规模更小。代码已开源,可访问以下链接获取:\url{https://github.com/Sense-X/Co-DETR}。
代码仓库
siyuanliii/masa
GitHub 中提及
sense-x/co-detr
pytorch
GitHub 中提及
open-mmlab/mmdetection
pytorch
anenbergb/Co-DETR-TensorRT
pytorch
GitHub 中提及
MindCode-4/code-3/tree/main/detr
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco | Co-DETR | AP50: 80.2 AP75: 63.4 APL: 72.0 APM: 60.1 APS: 41.6 mask AP: 57.1 |
| instance-segmentation-on-coco-minival | Co-DETR | AP50: 79.7 AP75: 62.8 APL: 74.6 APM: 59.7 APS: 38.9 mask AP: 56.6 |
| instance-segmentation-on-lvis-v1-0-val | Co-DETR (single-scale) | mask AP: 60.7 |
| object-detection-on-coco | Co-DETR (Swin-L) | Params (M): 218 box mAP: 64.8 |
| object-detection-on-coco | Co-DETR | Params (M): 304 box mAP: 66.0 |
| object-detection-on-coco-minival | Co-DETR | Params (M): 348 box AP: 65.9 |
| object-detection-on-coco-minival | Co-DETR (Swin-L) | Params (M): 218 box AP: 64.7 |
| object-detection-on-lvis-v1-0-minival | Co-DETR (single-scale) | box AP: 72.0 |
| object-detection-on-lvis-v1-0-val | Co-DETR (single-scale) | box AP: 68.0 |