
摘要
在本文中,我们提出了一种用于多视角3D目标检测的长序列建模框架,命名为StreamPETR。该框架基于PETR系列中的稀疏查询设计,系统地开发了一种以目标为中心的时间机制。模型以在线方式运行,通过对象查询逐帧传播长期历史信息。此外,我们引入了一种运动感知层归一化(motion-aware layer normalization),以建模对象的移动。与单帧基线相比,StreamPETR仅带来微不足道的计算成本,却实现了显著的性能提升。在标准nuScenes基准测试中,它是首个在线多视角方法,在性能上(67.6% NDS和65.3% AMOTA)与基于激光雷达的方法相当。轻量级版本实现了45.0%的mAP和31.7 FPS的速度,比最先进的方法(SOLOFusion)高出2.3%的mAP,并且速度提高了1.8倍。代码已发布在https://github.com/exiawsh/StreamPETR.git。
代码仓库
exiawsh/streampetr
官方
pytorch
GitHub 中提及
wenyuqing/panacea
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-multi-object-tracking-on-nuscenes-camera-1 | StreamPETR-Large | AMOTA: 65.3 |
| 3d-object-detection-on-3d-object-detection-on | StreamPETR | Average mAP: 20.3 |
| 3d-object-detection-on-nuscenes-camera-only | StreamPETR-Large | Future Frame: false NDS: 67.6 |