3 个月前

采用稀疏Transformer的单步长3D目标检测器

采用稀疏Transformer的单步长3D目标检测器

摘要

在面向自动驾驶的激光雷达(LiDAR)三维目标检测任务中,目标物体尺寸与输入场景尺寸之比显著小于二维目标检测场景。然而,许多三维检测器在设计时忽视了这一关键差异,直接沿用二维检测器的通用范式,即在对点云进行量化后仍继续对特征图进行多尺度下采样。本文首先重新审视这种多步长(multi-stride)范式对基于LiDAR的三维目标检测器的影响。实验结果表明,下采样操作带来的收益微乎其微,反而不可避免地造成信息损失。为解决该问题,本文提出一种单步长稀疏Transformer(Single-stride Sparse Transformer, SST)架构,从网络输入到输出全程保持原始分辨率,从而完整保留空间细节。借助Transformer的全局建模能力,SST有效缓解了单步长结构中感受野不足的问题。同时,该方法天然契合点云数据的稀疏特性,避免了传统密集计算带来的高昂开销。最终,SST在大规模Waymo Open Dataset上取得了当前最优的检测性能。特别值得注意的是,得益于单步长设计带来的高分辨率表征能力,该方法在小目标(如行人)检测任务中表现尤为突出,于验证集上实现了83.8的LEVEL 1 AP指标。相关代码将开源至:https://github.com/TuSimple/SST

代码仓库

tusen-ai/sst
pytorch
GitHub 中提及
tusimple/sst
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
采用稀疏Transformer的单步长3D目标检测器 | 论文 | HyperAI超神经