
摘要
我们提出了一种深度学习框架,称为DuLa-Net,用于从单个RGB全景图预测曼哈顿世界3D房间布局。为了提高预测精度,我们的方法同时利用了全景图的两种投影方式,即等距柱状投影(equirectangular)全景视图和透视天花板视图,这两种视图分别包含了关于房间布局的不同线索。我们的网络架构包括两个编码器-解码器分支,分别用于分析这两种视图。此外,我们还提出了一种新颖的特征融合结构来连接这两个分支,并对它们进行联合训练以预测2D平面图和布局高度。为了学习更复杂的房间布局,我们引入了Realtor360数据集,该数据集包含具有不同数量角落的曼哈顿世界房间布局的全景图。实验结果表明,我们的工作在预测精度和性能方面优于近期的最先进方法,特别是在非立方体布局的房间中表现尤为突出。
代码仓库
SunDaDenny/DuLa-Net
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-room-layouts-from-a-single-rgb-panorama-on | DuLa-Net | 3DIoU: 77.42% |
| 3d-room-layouts-from-a-single-rgb-panorama-on-2 | DuLa-Net | 3DIoU: 77.2% |
| 3d-room-layouts-from-a-single-rgb-panorama-on-3 | DuLa-Net | 3DIoU: 79.36 |