3 个月前

金字塔R-CNN:迈向更优性能与适应性的3D目标检测

金字塔R-CNN:迈向更优性能与适应性的3D目标检测

摘要

我们提出了一种灵活且高性能的两阶段3D目标检测框架——Pyramid R-CNN,用于从点云数据中进行3D目标检测。现有方法通常依赖于感兴趣区域(RoI)内的点或体素进行第二阶段的特征提取,但难以有效处理这些点的稀疏性与非均匀分布问题,从而可能导致远距离物体检测失败。为解决上述问题,我们提出了一种新型的第二阶段模块——金字塔RoI头(Pyramid RoI Head),能够自适应地从稀疏的感兴趣点中学习特征。该模块包含三个核心组件:首先,我们提出了RoI-网格金字塔(RoI-grid Pyramid),通过分层聚合方式在金字塔结构中广泛收集每个RoI内的感兴趣点,以缓解点云稀疏性问题;其次,我们提出RoI-网格注意力机制(RoI-grid Attention),这是一种新型操作,通过将传统的基于注意力的点操作与图神经网络(graph-based)点操作统一建模,从而从稀疏点中编码更丰富的语义信息;第三,我们设计了密度感知半径预测(Density-Aware Radius Prediction, DARP)模块,可根据不同区域的点云密度动态调整RoI的关注范围,实现自适应聚焦。通过融合上述三个组件,我们的金字塔RoI头在稀疏且分布不均的场景下表现出强鲁棒性,并可与多种3D主干网络(backbone)兼容,持续提升检测性能。大量实验表明,Pyramid R-CNN在KITTI和Waymo Open数据集上均显著超越当前最优的3D检测模型。

代码仓库

基准测试

基准方法指标
3d-object-detection-on-waymo-vehiclePyramid-PV
AP: 76.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
金字塔R-CNN:迈向更优性能与适应性的3D目标检测 | 论文 | HyperAI超神经