
摘要
我们提出了一种端到端的三维场景重建方法,通过直接从一组带有姿态信息的RGB图像回归截断有符号距离函数(Truncated Signed Distance Function, TSDF),实现场景的三维重建。传统三维重建方法通常依赖于深度图作为中间表示,再进一步构建完整的三维模型。我们假设,直接从图像回归三维信息更具有效性。该方法首先利用二维卷积神经网络(2D CNN)独立提取每张图像的特征,随后根据相机的内参和外参将这些特征反投影并累积到体素空间中。在特征累积完成后,再通过三维卷积神经网络(3D CNN)对累积特征进行细化,并预测相应的TSDF值。此外,该方法还能在几乎不增加计算开销的前提下,获得三维模型的语义分割结果。我们在Scannet数据集上对该方法进行了评估,结果表明,无论在定量指标还是定性效果上,我们的方法均显著优于当前最先进的基线方法(即基于深度多视图立体匹配后接传统TSDF融合的方法)。我们还将所提出的三维语义分割结果与以往依赖深度传感器的方法进行了对比,由于此前尚无研究在仅使用RGB输入的情况下解决该问题,因此本工作在该方面具有开创性意义。
代码仓库
magicleap/Atlas
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-reconstruction-on-scannet | Atlas (finetuned) | 3DIoU: 89.4 Chamfer Distance: 37.2 L1: 21.1 |
| depth-estimation-on-scannet | Atlas (finetuned) | RMSE: 0.174 absolute relative error: 0.089 |
| depth-estimation-on-scannet | Atlas (plain) | RMSE: 0.165 |