3 个月前

基于LiDAR的3D识别的球面Transformer

基于LiDAR的3D识别的球面Transformer

摘要

基于LiDAR的三维点云识别已广泛应用于诸多领域。然而,当前大多数方法在处理时未充分考虑LiDAR点云的空间分布特性,导致信息连接性不足且感受野受限,尤其在稀疏远距离点上表现不佳。针对这一问题,本文深入研究了LiDAR点云的变稀疏分布特性,并提出SphereFormer,该方法可直接将密集近距点的信息聚合至稀疏远距点。为此,我们设计了径向窗口自注意力机制(radial window self-attention),将空间划分为多个非重叠、细长的窗口,有效解决了信息断连问题,显著且平滑地扩展了感受野,大幅提升了远距离稀疏点的识别性能。此外,为适配细长窗口的结构特性,我们提出指数分割(exponential splitting)以生成精细的位置编码,并引入动态特征选择机制以增强模型的表征能力。值得注意的是,本方法在nuScenes和SemanticKITTI语义分割基准测试中分别以81.9%和74.8%的mIoU成绩位列第一;在nuScenes目标检测基准测试中取得72.8%的NDS和68.5%的mAP,排名第三。代码已开源,地址为:https://github.com/dvlab-research/SphereFormer.git。

代码仓库

dvlab-research/sphereformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-segmentation-on-semantickittiSphereFormer
test mIoU: 74.8%
val mIoU: 67.8%
lidar-semantic-segmentation-on-nuscenesSphereFormer
test mIoU: 0.819
val mIoU: 0.795
semantic-segmentation-on-kitti-semanticRPVNet [xu2021rpvnet]
Mean IoU (class): 80.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于LiDAR的3D识别的球面Transformer | 论文 | HyperAI超神经