6 个月前

摘要

当前表现优异的目标检测器高度依赖主干网络（backbone networks），其性能的持续提升主要得益于对更高效网络结构的探索。本文提出一种新颖且灵活的主干网络框架——CBNetV2，旨在基于现有的开源预训练主干网络，在“预训练-微调”范式下构建高性能检测器。具体而言，CBNetV2架构将多个相同的主干网络以复合连接（composite connections）的方式进行分组整合。该设计能够有效融合多个主干网络的高层与低层特征，并逐步扩大感受野，从而更高效地完成目标检测任务。此外，我们还提出一种基于辅助监督（assistant supervision）的优化训练策略，进一步提升CBNet-based检测器的性能。值得注意的是，CBNetV2无需对复合主干网络进行额外的预训练，即可适配多种主流主干结构（包括基于CNN与基于Transformer的网络）以及各类检测头设计（涵盖单阶段与两阶段、基于锚点与无锚点检测器）。实验结果充分证明，相较于单纯增加网络深度与宽度，CBNetV2提供了一种更为高效、有效且资源友好的方式来构建高性能主干网络。特别地，我们的Dual-Swin-L模型在COCO test-dev数据集上，采用单模型、单尺度测试协议，取得了59.4%的框AP（box AP）与51.6%的掩码AP（mask AP），显著优于当前最优结果（Swin-L的57.7% box AP与50.2% mask AP），同时训练周期缩短了6倍。在多尺度测试条件下，我们进一步将当前单模型的最佳性能提升至新纪录：60.1% box AP与52.3% mask AP，且未使用任何额外训练数据。相关代码已开源，地址为：https://github.com/VDIGPKU/CBNetV2。

源 PDF