
摘要
当前表现优异的目标检测器高度依赖主干网络(backbone networks),其性能的持续提升主要得益于对更高效网络结构的探索。本文提出一种新颖且灵活的主干网络框架——CBNetV2,旨在基于现有的开源预训练主干网络,在“预训练-微调”范式下构建高性能检测器。具体而言,CBNetV2架构将多个相同的主干网络以复合连接(composite connections)的方式进行分组整合。该设计能够有效融合多个主干网络的高层与低层特征,并逐步扩大感受野,从而更高效地完成目标检测任务。此外,我们还提出一种基于辅助监督(assistant supervision)的优化训练策略,进一步提升CBNet-based检测器的性能。值得注意的是,CBNetV2无需对复合主干网络进行额外的预训练,即可适配多种主流主干结构(包括基于CNN与基于Transformer的网络)以及各类检测头设计(涵盖单阶段与两阶段、基于锚点与无锚点检测器)。实验结果充分证明,相较于单纯增加网络深度与宽度,CBNetV2提供了一种更为高效、有效且资源友好的方式来构建高性能主干网络。特别地,我们的Dual-Swin-L模型在COCO test-dev数据集上,采用单模型、单尺度测试协议,取得了59.4%的框AP(box AP)与51.6%的掩码AP(mask AP),显著优于当前最优结果(Swin-L的57.7% box AP与50.2% mask AP),同时训练周期缩短了6倍。在多尺度测试条件下,我们进一步将当前单模型的最佳性能提升至新纪录:60.1% box AP与52.3% mask AP,且未使用任何额外训练数据。相关代码已开源,地址为:https://github.com/VDIGPKU/CBNetV2。
代码仓库
epsilon-deltta/epsilon-deltta
tf
GitHub 中提及
VDIGPKU/CBNetV2
官方
pytorch
GitHub 中提及
shinya7y/UniverseNet
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco | CBNetV2 (Dual-Swin-L HTC, single-scale) | mask AP: 51.6 |
| instance-segmentation-on-coco | CBNetV2 (Dual-Swin-L HTC, multi-scale) | mask AP: 52.3 |
| instance-segmentation-on-coco | CBNetV2 (EVA02, single-scale) | AP50: 80.3 AP75: 62.1 APL: 70.9 APM: 59.3 APS: 39.7 mask AP: 56.1 |
| instance-segmentation-on-coco-minival | CBNetV2 (Dual-Swin-L HTC, multi-scale) | mask AP: 51.8 |
| instance-segmentation-on-coco-minival | CBNetV2 (Dual-Swin-L HTC, multi-scale) | mask AP: 51 |
| object-detection-on-coco | CBNetV2 (Dual-Swin-L HTC, multi-scale) | box mAP: 60.1 |
| object-detection-on-coco | CBNetV2 (Dual-Swin-L HTC, single-scale) | box mAP: 59.4 |
| object-detection-on-coco-minival | CBNetV2 (Dual-Swin-L HTC, multi-scale) | box AP: 59.6 |
| object-detection-on-coco-minival | CBNetV2 (Dual-Swin-L HTC, multi-scale) | box AP: 59.1 |
| object-detection-on-coco-o | CBNetV2 (Swin-L) | Average mAP: 39.0 Effective Robustness: 12.36 |