4 个月前

基于视觉的三维语义占用预测的三视角方法

基于视觉的三维语义占用预测的三视角方法

摘要

现代以视觉为中心的自动驾驶感知方法广泛采用了鸟瞰图(BEV)表示来描述三维场景。尽管其效率高于体素表示,但仅用一个平面难以精确描述场景的细粒度三维结构。为了解决这一问题,我们提出了一种三视角(TPV)表示,该表示在鸟瞰图的基础上增加了两个额外的垂直平面。我们通过将每个点在三个平面上的投影特征相加来建模三维空间中的每个点。为了将图像特征提升到三维TPV空间,我们进一步提出了一种基于Transformer的TPV编码器(TPVFormer),以有效获取TPV特征。我们利用注意力机制聚合每个查询在每个TPV平面对应的图像特征。实验表明,我们的模型在稀疏监督下能够有效地预测所有体素的语义占据情况。我们首次证明了仅使用相机输入即可在nuScenes数据集上的LiDAR分割任务中实现与基于LiDAR的方法相当的性能。代码:https://github.com/wzzheng/TPVFormer。

代码仓库

wzzheng/tpvformer
官方
pytorch
GitHub 中提及
open-mmlab/mmdetection3d
pytorch
GitHub 中提及
happytianhao/tade
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-scene-completion-on-kitti-360TPVFormer
mIoU: 13.64
prediction-of-occupancy-grid-maps-on-nuscenesTPVFormer04
mIoU: 52.058

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视觉的三维语义占用预测的三视角方法 | 论文 | HyperAI超神经