3 个月前

GeoBEV:面向多视角三维目标检测的几何BEV表征学习

GeoBEV:面向多视角三维目标检测的几何BEV表征学习

摘要

鸟瞰图(Bird's-Eye-View, BEV)表示已成为多视角三维目标检测的主流范式,展现出卓越的感知能力。然而,现有方法普遍忽视了BEV表示的几何质量,导致其仍处于低分辨率状态,难以恢复场景的真实几何信息。本文识别出先前方法在限制BEV表示几何质量方面的关键缺陷,并提出径向-笛卡尔BEV采样(Radial-Cartesian BEV Sampling, RC-Sampling),该方法在高效生成高分辨率、稠密BEV表示方面显著优于其他特征变换策略,能够有效恢复细粒度的几何结构信息。此外,本文设计了一种新型“盒内标签”(In-Box Label),替代传统基于LiDAR点云生成的深度标签。该标签反映了物体真实的几何结构,而不仅仅是其表面信息,从而将真实世界的几何先验注入BEV表示中。结合In-Box Label,我们进一步提出中心感知内部损失(Centroid-Aware Inner Loss, CAI Loss),以捕捉物体内部的几何结构特征。最终,我们将上述模块整合为一种新型多视角三维目标检测框架,命名为GeoBEV,在nuScenes测试集上取得了66.2%的NDS(NuScenes Detection Score)性能,达到当前最优水平。相关代码已开源,地址为:https://github.com/mengtan00/GeoBEV.git。

代码仓库

mengtan00/geobev
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-detection-on-nuscenes-camera-onlyGeoBEV (V2-99)
Future Frame: false
NDS: 66.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GeoBEV:面向多视角三维目标检测的几何BEV表征学习 | 论文 | HyperAI超神经