4 个月前

PETRv2:多相机图像三维感知的统一框架

PETRv2:多相机图像三维感知的统一框架

摘要

本文提出了一种统一的多视角图像三维感知框架——PETRv2。基于PETR,PETRv2探索了时间建模的有效性,通过利用前几帧的时间信息来提升三维目标检测的性能。具体而言,我们扩展了PETR中的三维位置嵌入(3D PE)以实现时间建模。3D PE在不同帧之间实现了目标位置的时间对齐。为进一步提高3D PE的数据适应性,引入了一种特征引导的位置编码器。为了支持多任务学习(例如BEV分割和三维车道检测),PETRv2通过引入特定任务的查询提供了一个简单而有效的解决方案,这些查询在不同的空间中初始化。PETRv2在三维目标检测、BEV分割和三维车道检测方面达到了最先进的性能。我们还对PETR框架进行了详细的鲁棒性分析。我们希望PETRv2能够成为三维感知领域的一个强大基线模型。代码可在以下网址获取:\url{https://github.com/megvii-research/PETR}。

代码仓库

megvii-research/petr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-lane-detection-on-openlanePETRv2-V∗ (VoVNetV2 with 400 anchor points)
Curve: -
Extreme Weather: -
F1 (all): 61.2
FPS (pytorch): -
Intersection: -
Merge u0026 Split: -
Night: -
Up u0026 Down: -
3d-lane-detection-on-openlanePETRv2-E (EfficientNet)
Curve: -
Extreme Weather: -
F1 (all): 51.9
FPS (pytorch): -
Intersection: -
Merge u0026 Split: -
Night: -
Up u0026 Down: -
3d-lane-detection-on-openlanePETRv2-V (VoVNetV2)
Curve: -
Extreme Weather: -
F1 (all): 57.8
FPS (pytorch): -
Intersection: -
Merge u0026 Split: -
Night: -
Up u0026 Down: -
3d-object-detection-on-nuscenes-camera-onlyPETRv2-pure
Future Frame: false
NDS: 59.2
bird-s-eye-view-semantic-segmentation-onPETRv2
IoU lane - 224x480 - 100x100 at 0.5: 44.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PETRv2:多相机图像三维感知的统一框架 | 论文 | HyperAI超神经