4 个月前

OccFormer:基于视觉的双路径Transformer用于3D语义占用预测

OccFormer:基于视觉的双路径Transformer用于3D语义占用预测

摘要

基于视觉的自动驾驶感知已经从鸟瞰图(BEV)表示转变为3D语义占用。与BEV平面相比,3D语义占用进一步提供了沿垂直方向的结构信息。本文介绍了OccFormer,一种双路径变换器网络,用于有效处理3D体素以进行语义占用预测。OccFormer通过将繁重的3D处理分解为水平面上的局部和全局变换器路径,实现了对相机生成的3D体素特征的长距离、动态且高效的编码。对于占用解码器,我们提出了保留池化(preserve-pooling)和类别引导采样(class-guided sampling),对Mask2Former进行了适应性改进,显著缓解了稀疏性和类别不平衡问题。实验结果表明,OccFormer在SemanticKITTI数据集上的语义场景补全任务以及nuScenes数据集上的激光雷达语义分割任务中显著优于现有方法。代码可在以下链接获取:\url{https://github.com/zhangyp15/OccFormer}。

代码仓库

zhangyp15/occformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-scene-completion-from-a-single-1OccFormer
mIoU: 12.32
3d-semantic-scene-completion-on-kitti-360OccFormer
mIoU: 13.81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OccFormer:基于视觉的双路径Transformer用于3D语义占用预测 | 论文 | HyperAI超神经