3 个月前

Atlas：基于姿态图像的端到端三维场景重建

Zak Murez Tarrence van As James Bartolozzi Ayan Sinha Vijay Badrinarayanan Andrew Rabinovich

摘要

我们提出了一种端到端的三维场景重建方法，通过直接从一组带有姿态信息的RGB图像回归截断有符号距离函数（Truncated Signed Distance Function, TSDF），实现场景的三维重建。传统三维重建方法通常依赖于深度图作为中间表示，再进一步构建完整的三维模型。我们假设，直接从图像回归三维信息更具有效性。该方法首先利用二维卷积神经网络（2D CNN）独立提取每张图像的特征，随后根据相机的内参和外参将这些特征反投影并累积到体素空间中。在特征累积完成后，再通过三维卷积神经网络（3D CNN）对累积特征进行细化，并预测相应的TSDF值。此外，该方法还能在几乎不增加计算开销的前提下，获得三维模型的语义分割结果。我们在Scannet数据集上对该方法进行了评估，结果表明，无论在定量指标还是定性效果上，我们的方法均显著优于当前最先进的基线方法（即基于深度多视图立体匹配后接传统TSDF融合的方法）。我们还将所提出的三维语义分割结果与以往依赖深度传感器的方法进行了对比，由于此前尚无研究在仅使用RGB输入的情况下解决该问题，因此本工作在该方面具有开创性意义。

代码仓库

magicleap/Atlas

pytorch

GitHub 中提及

基准测试

基准	方法	指标
3d-reconstruction-on-scannet	Atlas (finetuned)	3DIoU: 89.4 Chamfer Distance: 37.2 L1: 21.1
depth-estimation-on-scannet	Atlas (finetuned)	RMSE: 0.174 absolute relative error: 0.089
depth-estimation-on-scannet	Atlas (plain)	RMSE: 0.165

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供