
摘要
多视角行人检测的主要挑战在于如何将各视角特有的特征整合到统一的表征空间中,以实现全面的端到端感知。以往的多视角检测方法主要致力于将透视视角特征投影至地面平面,从而构建场景的“鸟瞰图”(Bird's Eye View, BEV)表示。本文提出了一种简洁而高效的新架构,采用非参数化的三维特征提取策略。该策略直接从三维特征体中提取每个有效体素(voxel)对应的二维特征,有效缓解了以往方法中存在的特征损失问题。所提出的框架引入了三个新颖模块,旨在全面提升多视角检测系统的泛化能力。通过大量实验验证,该模型表现出显著优越性,不仅在常规场景下达到新的最先进性能,在场景泛化能力评估基准上也展现出突出表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiview-detection-on-gmvd | MVFP | MODA: 73.3 Recall: 79.2 |
| multiview-detection-on-multiviewx | MVFP | MODA: 95.7 MODP: 85.1 Recall: 97.2 |
| multiview-detection-on-wildtrack | MVFP | MODA: 94.1 MODP: 78.8 Recall: 97.7 |