
摘要
遮挡物体的检测仍然是当前先进目标检测器面临的一项挑战。本文旨在提升对这类物体的检测能力,从而全面增强现代目标检测器的整体性能。为此,本文提出以下四项主要贡献:(1)针对两阶段目标检测器的检测头,提出一种简单易用的“插件式”模块,用于提升部分遮挡物体的召回率。该模块能够预测目标物体、遮挡物和被遮挡物三层次的分割掩码,通过建模遮挡关系,从而更准确地预测目标物体的掩码。(2)提出一种可扩展的训练数据生成流程,利用现有目标检测与实例分割训练数据集中的非完整(amodal)补全技术,自动构建遮挡关系,以生成适用于该模块的训练数据。(3)构建了一个基于COCO数据集的评估基准,专门用于衡量部分遮挡及分离物体的召回性能。(4)实验证明,将该插件模块嵌入两阶段检测器后,仅需微调检测头即可显著提升性能;若对整个网络架构进行微调,性能提升更为明显。实验结果基于使用Swin-T或Swin-S作为主干网络的Mask R-CNN,以及使用Swin-B主干网络的Cascade Mask R-CNN在COCO数据集上的表现进行报告。
代码仓库
Championchess/Tri-Layer_Plugin_Occluded_Detection
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco | Swin-B + Cascade Mask R-CNN (tri-layer modelling) | mask AP: 45.9 |
| instance-segmentation-on-occluded-coco | Swin-T + Mask R-CNN (tri-layer plugin) | Mean Recall: 62.00 |
| instance-segmentation-on-occluded-coco | Swin-S + Mask R-CNN (tri-layer plugin) | Mean Recall: 62.58 |
| instance-segmentation-on-occluded-coco | Swin-B + Cascade Mask R-CNN (tri-layer modelling) | Mean Recall: 63.64 |
| instance-segmentation-on-separated-coco | Swin-B + Cascade Mask R-CNN (tri-layer modelling) | Mean Recall: 36.88 |
| instance-segmentation-on-separated-coco | Swin-S + Mask R-CNN (tri-layer plugin) | Mean Recall: 35.80 |
| instance-segmentation-on-separated-coco | Swin-T + Mask R-CNN (tri-layer plugin) | Mean Recall: 34.72 |