4 个月前

VoxFormer:基于相机的稀疏体素Transformer用于3D语义场景补全

VoxFormer:基于相机的稀疏体素Transformer用于3D语义场景补全

摘要

人类可以轻松想象被遮挡物体和场景的完整三维几何结构。这种迷人的能力对于识别和理解至关重要。为了在人工智能系统中实现这一功能,我们提出了VoxFormer,这是一种基于Transformer的语义场景补全框架,可以从仅有的二维图像输出完整的三维体素语义。我们的框架采用了两阶段设计,首先从深度估计中获取一组稀疏的可见和占用体素查询,然后通过一个稠密化阶段从这些稀疏体素生成密集的三维体素。该设计的一个关键思想是,二维图像上的视觉特征仅对应于可见的场景结构,而不是被遮挡或空旷的空间。因此,从可见结构的特征化和预测开始更为可靠。一旦获得这组稀疏查询,我们应用一种掩码自编码器设计,通过自注意力机制将信息传播到所有体素。在SemanticKITTI数据集上的实验表明,VoxFormer在几何方面相对提升了20.0%,在语义方面相对提升了18.1%,并且在训练过程中将GPU内存消耗降低至16GB以下。我们的代码已发布在 https://github.com/NVlabs/VoxFormer。

代码仓库

nvlabs/voxformer
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VoxFormer:基于相机的稀疏体素Transformer用于3D语义场景补全 | 论文 | HyperAI超神经