
摘要
MonoScene 提出了一种三维语义场景补全(3D Semantic Scene Completion, SSC)框架,该框架能够从单个单目 RGB 图像中推断场景的密集几何结构和语义信息。与现有的 SSC 文献不同,后者依赖于 2.5 维或 3 维输入,我们解决了从二维到三维场景重建的复杂问题,同时联合推断其语义。我们的框架基于连续的 2D 和 3D U-Nets,并通过一种新颖的 2D-3D 特征投影方法(受光学启发)将两者连接起来,引入了 3D 上下文关系先验以确保空间-语义一致性。除了架构上的贡献外,我们还引入了新的全局场景损失和局部视锥损失。实验结果表明,我们在所有指标和数据集上均优于现有文献,并且能够在相机视野之外生成合理的场景。我们的代码和训练模型可在 https://github.com/cv-rits/MonoScene 获取。
代码仓库
cv-rits/MonoScene
官方
pytorch
GitHub 中提及
astra-vision/monoscene
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-scene-completion-from-a-single | MonoScene | mIoU: 26.94 |
| 3d-semantic-scene-completion-from-a-single-1 | MonoScene | mIoU: 11.08 |
| 3d-semantic-scene-completion-from-a-single-2 | MonoScene | mIoU: 12.31 |
| 3d-semantic-scene-completion-on-kitti-360 | MonoScene | mIoU: 12.31 |
| 3d-semantic-scene-completion-on-nyuv2 | MonoScene (RGB input only) | mIoU: 26.94 |
| 3d-semantic-scene-completion-on-semantickitti | MonoScene (RGB input only) | mIoU: 11.08 |