4 个月前

级联上下文金字塔用于全分辨率3D语义场景补全

级联上下文金字塔用于全分辨率3D语义场景补全

摘要

语义场景补全(Semantic Scene Completion, SSC)旨在同时预测三维场景的体素占用情况和语义类别。这有助于智能设备理解和与周围环境互动。由于高内存需求,目前的方法仅能生成低分辨率的补全预测,通常会丢失物体细节。此外,这些方法还忽略了对三维推理至关重要的多尺度空间上下文。为了解决这些问题,本文提出了一种新的深度学习框架,命名为级联上下文金字塔网络(Cascaded Context Pyramid Network, CCPNet),该框架可以从单张深度图像中联合推断出体素化三维场景的占用情况和语义标签。所提出的CCPNet通过级联上下文金字塔提高了标签的一致性。同时,基于低层特征,它逐步利用引导残差精炼(Guided Residual Refinement, GRR)模块恢复物体的精细结构。我们提出的框架具有三个显著优势:(1) 明确建模三维空间上下文以提升性能;(2) 生成保留结构细节的全分辨率三维体素;(3) 捕获低内存需求且具有良好可扩展性的轻量级模型。大量实验表明,尽管只使用单视图深度图,我们提出的框架仍能生成高质量的SSC结果,并在合成SUNCG数据集和真实NYU数据集上均优于现有最先进方法。

基准测试

基准方法指标
3d-semantic-scene-completion-on-nyuv2CCPNet (SUNCG pretraining)
mIoU: 41.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
级联上下文金字塔用于全分辨率3D语义场景补全 | 论文 | HyperAI超神经