3 个月前

GLPanoDepth:从全局到局部的全景深度估计

GLPanoDepth:从全局到局部的全景深度估计

摘要

本文提出一种基于学习的方法,用于从单目全景图像中预测场景的稠密深度值。全景图像具有完整的视场角,相较于透视图像能够提供更为完整的场景描述。然而,当前大多数方法依赖的全卷积网络难以从全景图像中捕捉丰富的全局上下文信息。此外,等距柱状投影(equirectangular projection)带来的畸变问题也进一步影响了深度估计的精度。为解决上述问题,本文提出一种基于Transformer的新架构——立方体图视觉Transformer(Cubemap Vision Transformers, CViT),该架构能够建模长距离依赖关系,并从全景图像中提取无畸变的全局特征。我们证明,CViT在每一阶段均具备全局感受野,能够为球面信号提供全局一致的预测结果。为进一步保留重要的局部特征,我们在网络架构中引入了一个基于卷积的分支(称为GLPanoDepth),并在多尺度上融合来自CViT的全局特征。这种“全局到局部”的策略使我们能够充分挖掘全景图像中的有用全局与局部特征,在全景深度估计任务中取得了当前最优的性能表现。

代码仓库

LeoDarcy/GLPanoDepth
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
depth-estimation-on-stanford2d3d-panoramicGLPanoDepth
RMSE: 0.3493

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GLPanoDepth:从全局到局部的全景深度估计 | 论文 | HyperAI超神经