
摘要
本文提出了一种统一的多视角图像三维感知框架——PETRv2。基于PETR,PETRv2探索了时间建模的有效性,通过利用前几帧的时间信息来提升三维目标检测的性能。具体而言,我们扩展了PETR中的三维位置嵌入(3D PE)以实现时间建模。3D PE在不同帧之间实现了目标位置的时间对齐。为进一步提高3D PE的数据适应性,引入了一种特征引导的位置编码器。为了支持多任务学习(例如BEV分割和三维车道检测),PETRv2通过引入特定任务的查询提供了一个简单而有效的解决方案,这些查询在不同的空间中初始化。PETRv2在三维目标检测、BEV分割和三维车道检测方面达到了最先进的性能。我们还对PETR框架进行了详细的鲁棒性分析。我们希望PETRv2能够成为三维感知领域的一个强大基线模型。代码可在以下网址获取:\url{https://github.com/megvii-research/PETR}。
代码仓库
megvii-research/petr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-lane-detection-on-openlane | PETRv2-V∗ (VoVNetV2 with 400 anchor points) | Curve: - Extreme Weather: - F1 (all): 61.2 FPS (pytorch): - Intersection: - Merge u0026 Split: - Night: - Up u0026 Down: - |
| 3d-lane-detection-on-openlane | PETRv2-E (EfficientNet) | Curve: - Extreme Weather: - F1 (all): 51.9 FPS (pytorch): - Intersection: - Merge u0026 Split: - Night: - Up u0026 Down: - |
| 3d-lane-detection-on-openlane | PETRv2-V (VoVNetV2) | Curve: - Extreme Weather: - F1 (all): 57.8 FPS (pytorch): - Intersection: - Merge u0026 Split: - Night: - Up u0026 Down: - |
| 3d-object-detection-on-nuscenes-camera-only | PETRv2-pure | Future Frame: false NDS: 59.2 |
| bird-s-eye-view-semantic-segmentation-on | PETRv2 | IoU lane - 224x480 - 100x100 at 0.5: 44.8 |