
摘要
区域提议机制对于现有的图像目标检测深度学习方法至关重要。尽管在正常情况下它们通常能够实现良好的检测性能,但在极端场景中的召回率却低得不可接受。这主要是因为边界框注释包含大量环境噪声信息,需要进行非极大值抑制(Non-Maximum Suppression, NMS)来选择目标框。因此,在本文中,我们提出了一种无需锚点且无需NMS的目标检测模型,称为弱监督多模态注释分割(Weakly Supervised Multimodal Annotation Segmentation, WSMA-Seg),该模型利用分割模型实现了无NMS的准确和鲁棒的目标检测。在WSMA-Seg中,通过弱监督边界框提出了多模态注释以实现实例感知的分割;我们还开发了一种基于运行数据的后续算法来追踪物体的轮廓。此外,我们提出了一种多尺度池化分割(Multi-Scale Pooling Segmentation, MSP-Seg)作为WSMA-Seg的基础分割模型,以实现更精确的分割并提高WSMA-Seg的检测准确性。多个数据集上的实验结果表明,所提出的WSMA-Seg方法优于当前最先进的检测器。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-detection-on-wider-face-hard | WSMA-Seg | AP: 0.8723 |
| face-detection-on-wider-face-medium | WSMA-Seg | AP: 0.9341 |
| head-detection-on-rebar-head | WSMA-Seg (stack=2 ,base=40, depth=5) | F1: 98.83% |
| object-detection-on-coco | WSMA-Seg | Hardware Burden: Operations per network pass: box mAP: 38.1 |