LiYiming ; YuZhiding ; ChoyChristopher ; XiaoChaowei ; AlvarezJose M. ; FidlerSanja ; FengChen ; AnandkumarAnima

摘要
人类可以轻松想象被遮挡物体和场景的完整三维几何结构。这种迷人的能力对于识别和理解至关重要。为了在人工智能系统中实现这一功能,我们提出了VoxFormer,这是一种基于Transformer的语义场景补全框架,可以从仅有的二维图像输出完整的三维体素语义。我们的框架采用了两阶段设计,首先从深度估计中获取一组稀疏的可见和占用体素查询,然后通过一个稠密化阶段从这些稀疏体素生成密集的三维体素。该设计的一个关键思想是,二维图像上的视觉特征仅对应于可见的场景结构,而不是被遮挡或空旷的空间。因此,从可见结构的特征化和预测开始更为可靠。一旦获得这组稀疏查询,我们应用一种掩码自编码器设计,通过自注意力机制将信息传播到所有体素。在SemanticKITTI数据集上的实验表明,VoxFormer在几何方面相对提升了20.0%,在语义方面相对提升了18.1%,并且在训练过程中将GPU内存消耗降低至16GB以下。我们的代码已发布在 https://github.com/NVlabs/VoxFormer。
代码仓库
nvlabs/voxformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-scene-completion-from-a-single-1 | VoxFormer | mIoU: 12.20 |
| 3d-semantic-scene-completion-from-a-single-2 | VoxFormer | mIoU: 11.91 |
| 3d-semantic-scene-completion-on-kitti-360 | VoxFormer | mIoU: 11.91 |