3 个月前

Metric3Dv2:一种通用的单目几何基础模型,用于零样本度量深度与表面法向估计

Metric3Dv2:一种通用的单目几何基础模型,用于零样本度量深度与表面法向估计

摘要

我们提出 Metric3D v2,这是一种用于从单张图像实现零样本(zero-shot)度量深度与表面法向量估计的几何基础模型,对于实现度量三维重建具有重要意义。尽管深度与法向量在几何上密切相关且高度互补,但二者各自面临不同的挑战。当前最先进的单目深度估计方法通过学习仿射不变的深度表示实现零样本泛化,但无法恢复真实世界中的度量尺度;而当前最先进的法向量估计方法由于缺乏大规模带标注数据,其零样本性能仍受限。为解决上述问题,我们分别提出了针对度量深度估计与表面法向量估计的创新方案。在度量深度估计方面,我们发现,实现零样本单视角模型的关键在于消除来自多种相机模型及大规模数据训练所带来的度量模糊性。为此,我们提出了一种规范相机空间变换模块(canonical camera space transformation module),该模块显式地解决了度量模糊问题,可无缝集成至现有单目深度模型中。在表面法向量估计方面,我们设计了一种深度-法向联合优化模块,能够从度量深度中蒸馏出多样化数据知识,使法向量估计器的学习不再局限于法向量标签本身。结合上述模块,我们的深度-法向模型可在来自数千种不同相机型号、包含多种类型标注的超过1600万张图像上稳定训练,从而实现对未见过的、真实场景中复杂相机设置下的图像的零样本泛化。本方法能够在随机采集的互联网图像上准确恢复具有真实度量意义的三维结构,为实现可信的单图像度量几何重建开辟了新路径。项目主页:https://JUGGHM.github.io/Metric3Dv2

代码仓库

yvanyin/metric3d
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-ibims-1Metric3D-v2(L, ZS)
δ1.25: 0.969
monocular-depth-estimation-on-kitti-eigenMetric3Dv2 (g2, FT, 80m, flip_aug_test)
Delta u003c 1.25: 0.989
Delta u003c 1.25^2: 0.998
Delta u003c 1.25^3: 1.000
RMSE: 1.766
RMSE log: 0.060
absolute relative error: 0.039
monocular-depth-estimation-on-nyu-depth-v2Metric3Dv2(L, FT)
Delta u003c 1.25: 0.989
Delta u003c 1.25^2: 0.998
Delta u003c 1.25^3: 1.000
RMSE: 0.183
absolute relative error: 0.047
log 10: 0.020
surface-normals-estimation-on-ibims-1Metric3Dv2(g2, ZS)
% u003c 11.25: 69.7
% u003c 22.5: 76.2
% u003c 30: 78.8
Mean: 19.6
surface-normals-estimation-on-nyu-depth-v2-1Metric3Dv2(L, FT)
% u003c 11.25: 68.8
% u003c 22.5: 84.9
% u003c 30: 89.8
Mean Angle Error: 12.0
RMSE: 19.2
surface-normals-estimation-on-scannetv2Metric3Dv2 (g2, In-domain)
% u003c 11.25: 77.8
% u003c 22.5: 90.1
% u003c 30: 93.5
Mean Angle Error: 9.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Metric3Dv2:一种通用的单目几何基础模型,用于零样本度量深度与表面法向估计 | 论文 | HyperAI超神经