3 个月前

多视角行人检测中的堆叠单应性变换

多视角行人检测中的堆叠单应性变换

摘要

多视角行人检测旨在从多个相机视角预测鸟瞰图(Bird's Eye View, BEV)占用图。该任务面临两大挑战:如何建立从各视角到BEV地图的三维对应关系,以及如何融合不同视角间的占用信息。本文提出一种新颖的堆叠单应性变换(Stacked HOmography Transformations, SHOT)方法,其思想源于通过一系列单应性变换来近似三维世界坐标系中的投影过程。首先,我们构建了一组分层变换,用于将不同高度层级的视角投影至地面平面;随后,设计了一个软选择模块,使网络能够学习预测该变换序列的置信度。此外,本文还对SHOT的构建原理进行了深入的理论分析,探讨了其在三维世界坐标系中对投影近似的准确性。实验结果表明,SHOT能够有效估计单个视角到BEV地图间的精确对应关系,在标准评测基准上取得了新的最先进性能。

基准测试

基准方法指标
multiview-detection-on-citystreetSHOT
F1_score (2m): 71.8
MODA (2m): 53.5
MODP (2m): 72.4
Precision (2m): 91.0
Recall (2m): 59.4
multiview-detection-on-cvcsSHOT
F1_score (1m): 67.0
MODA (1m): 45.0
MODP (1m): 77.4
Precision (1m): 83.6
Recall (1m): 55.9
multiview-detection-on-multiviewxSHOT
MODA: 88.3
MODP: 82.0
Recall: 91.5
multiview-detection-on-wildtrackSHOT
MODA: 90.2
MODP: 76.5
Recall: 94.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多视角行人检测中的堆叠单应性变换 | 论文 | HyperAI超神经