
摘要
RGB图像与深度图像的区别在于它们携带了更多的颜色和纹理信息,这些信息可以作为深度的重要补充,以提升3D语义场景补全(SSC)的性能。SSC由3D形状补全(SC)和语义场景标记组成,而现有的大多数方法仅使用深度作为输入,这导致了性能瓶颈。此外,最先进的方法采用了3D卷积神经网络(CNN),这些网络结构复杂且参数量庞大。我们引入了一种轻量级的维度分解残差网络(DDR)用于3D密集预测任务。新颖的因子分解卷积层有效地减少了网络参数,而提出的多尺度融合机制则可以在同时提高补全和分割精度。我们的方法在两个公开数据集上展示了优异的性能。与最新的方法SSCNet相比,我们在SC-IoU上提高了5.9%,在SSC-IoU上提高了5.7%,尽管所使用的网络参数仅为SSCNet的21%,浮点运算次数(FLOPs)为16.6%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-scene-completion-on-nyuv2 | DDRNet | mIoU: 30.4 |