
摘要
自动驾驶系统高度依赖底层的感知模块,该模块必须在保证高性能的同时具备高效率,以实现实时精准决策。在任何自动驾驶系统中,避免与行人发生碰撞均是首要任务,因此行人检测成为此类系统感知模块的核心组成部分之一。当前最先进的行人检测方法存在两大关键问题:其一,推理时间较长,影响了整个感知模块的效率;其二,在面对小尺寸及严重遮挡行人时,检测性能显著下降。为此,本文提出一种新型无锚框(anchor-free)行人检测架构——局部语义特征混合器(Localized Semantic Feature Mixers, LSFM)。该架构采用我们提出的超像素金字塔池化(Super Pixel Pyramid Pooling, SP3)模块,替代传统计算开销较大的特征金字塔网络(Feature Pyramid Networks, FPN)进行特征编码,显著降低了计算复杂度。此外,我们设计了一种基于MLPMixer的密集焦点检测网络(Dense Focal Detection Network)作为轻量化检测头,相较现有方法大幅减少了计算负担与推理时间。为进一步提升所提架构的性能,我们引入并优化了Mixup数据增强策略,该方法在小尺寸及严重遮挡场景下显著提升了检测效果。我们在多个公认的标准交通场景行人检测数据集上对LSFM进行了全面评估。实验结果表明,LSFM在Caltech、City Persons、Euro City Persons以及TJU-Traffic-Pedestrian等数据集上均达到了当前最优(state-of-the-art)的检测性能,同时平均推理时间缩短了55%。更为重要的是,LSFM首次在行人检测领域超越了人类专家的基准表现。最后,我们进行了跨数据集的泛化能力评估,结果证明LSFM具有出色的泛化性能,能够有效适应未见数据,展现出良好的实际应用潜力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| pedestrian-detection-on-caltech | LSFM | Heavy MR^-2: 19.5 Reasonable Miss Rate: 0.87 |
| pedestrian-detection-on-caltech-pedestrian | LSFM | MR: 0.87 |
| pedestrian-detection-on-citypersons | LSFM | Heavy MR^-2: 31.9 Reasonable MR^-2: 8.5 Small MR^-2: 8.8 Test Time: 0.18 |
| pedestrian-detection-on-citypersons | LSFM (Additional Data) | Heavy MR^-2: 24.73 Reasonable MR^-2: 6.38 Small MR^-2: 7.90 Test Time: 0.18 |
| pedestrian-detection-on-tju-ped-traffic | LSFM | HO (miss rate): 56.2 R (miss rate): 18.7 RS (miss rate): 24.9 |