
摘要
许多现代目标检测器通过采用“看两次、想两次”的机制实现了卓越的性能。本文在目标检测的主干网络设计中探索了这一机制。在宏观层面,我们提出了递归特征金字塔(Recursive Feature Pyramid),该结构将特征金字塔网络(Feature Pyramid Networks)的额外反馈连接引入自底向上的主干网络层中;在微观层面,我们提出了可切换空洞卷积(Switchable Atrous Convolution),该方法使用不同的空洞率对特征进行卷积,并通过切换函数融合结果。二者结合形成了DetectoRS模型,显著提升了目标检测的性能。在COCO测试集(test-dev)上,DetectoRS在目标检测任务中取得了55.7%的边界框平均精度(box AP),在实例分割任务中达到48.5%的掩码平均精度(mask AP),在全景分割任务中实现50.0%的全景分割精度(PQ),均达到当前最优水平。相关代码已公开发布。
代码仓库
FenHua/Robust_Logo_Detection
pytorch
GitHub 中提及
TeamA2020/Practice
pytorch
GitHub 中提及
joe-siyuan-qiao/DetectoRS
官方
pytorch
GitHub 中提及
Vishal-V/tf-models
tf
GitHub 中提及
open-mmlab/mmdetection
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco | DetectoRS (ResNeXt-101-32x4d, multi-scale) | AP50: 71.1 AP75: 51.6 APL: 59.6 APM: 49.5 APS: 30.3 mask AP: 47.1 |
| instance-segmentation-on-coco | DetectoRS (ResNeXt-101-64x4d, multi-scale) | AP50: 72.0 AP75: 53.3 APL: 61.5 APM: 50.9 APS: 31.6 mask AP: 48.5 |
| object-detection-on-ai-tod | DetectoRS (ResNet-50-FPN) | AP: 14.8 AP50: 32.8 AP75: 11.4 APm: 28.0 APs: 28.3 APt: 10.8 APvt: 0.0 |
| object-detection-on-coco | DetectoRS (ResNeXt-101-32x4d, single-scale) | AP50: 71.6 AP75: 58.5 APL: 66.9 APM: 56.5 APS: 33.9 box mAP: 53.3 |
| object-detection-on-coco | DetectoRS (ResNeXt-101-64x4d, multi-scale) | AP50: 74.2 AP75: 61.1 APL: 68.1 APM: 58.4 APS: 37.7 box mAP: 55.7 |
| object-detection-on-coco | DetectoRS (ResNeXt-101-32x4d, multi-scale) | AP50: 73.5 AP75: 60.1 APL: 66.4 APM: 57.3 APS: 37.4 box mAP: 54.7 |
| panoptic-segmentation-on-coco-test-dev | DetectoRS (ResNeXt-101-64x4d, multi-scale) | PQ: 50 PQst: 37.2 PQth: 58.5 |