3 个月前

基于非局部密集预测Transformer与联合监督-自监督学习的360度单目深度估计性能提升

基于非局部密集预测Transformer与联合监督-自监督学习的360度单目深度估计性能提升

摘要

由于获取等距投影(360°)图像的真值深度数据存在困难,当前等距投影深度数据在质量和数量上均不足以充分表征世界中的各类场景。因此,仅依赖监督学习的360°深度估计方法注定难以取得理想效果。尽管已有研究提出针对等距投影图像(EIs)的自监督学习方法,但这些方法常存在解不准确或非唯一的问题,导致性能不稳定。本文提出了一系列改进的360°单目深度估计方法,有效克服了以往研究的局限性。首先,我们提出一种仅利用重力对齐视频的自监督360°深度学习方法,该方法有望在训练过程中完全摆脱对深度标注数据的依赖。其次,我们设计了一种联合学习框架,通过融合监督学习与自监督学习的优势,互补各自短板,从而实现更精确的深度估计。第三,我们提出一种非局部融合模块,能够在深度重建过程中更好地保留视觉Transformer所编码的全局信息。在所提出的各项技术基础上,据我们所知,首次成功将Transformer架构应用于360°深度估计任务,实现了此前未被探索的尝试。在多个基准测试中,我们的方法显著优于现有工作,达到了当前最优的性能水平,建立了新的技术标杆。

代码仓库

yuniw18/Joint_360depth
pytorch
GitHub 中提及

基准测试

基准方法指标
depth-estimation-on-stanford2d3d-panoramicNLFB
RMSE: 0.2776
absolute relative error: 0.0649

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于非局部密集预测Transformer与联合监督-自监督学习的360度单目深度估计性能提升 | 论文 | HyperAI超神经