3 个月前

PrimeDepth:基于稳定扩散预图像的高效单目深度估计

PrimeDepth:基于稳定扩散预图像的高效单目深度估计

摘要

本工作聚焦于零样本单目深度估计任务。近年来,该领域的一项重要进展是利用文本到图像基础模型(如Stable Diffusion)的思想。基础模型能够提供丰富且通用的图像表征,因此仅需少量训练数据即可将其重构为深度估计模型,从而生成高细节度的深度图,并具备良好的泛化能力。然而,现有实现方式由于依赖底层迭代去噪过程,导致在推理阶段效率极低。针对这一问题,本文提出一种全新的实现思路,提出PrimeDepth方法,该方法在保持甚至增强基于扩散模型方法优势的同时,实现了极高的推理效率。我们的核心思想是:通过在Stable Diffusion中执行一次去噪步骤,提取出一个丰富但冻结的图像表征,我们称之为“预图像”(preimage)。该预图像随后被输入一个具有结构归纳偏置的精炼网络,再用于下游深度估计任务。实验验证表明,PrimeDepth的推理速度比当前领先的扩散模型方法Marigold快两个数量级,同时在复杂场景下更具鲁棒性,且在定量指标上略胜一筹。通过该方法,我们显著缩小了与当前最优数据驱动方法Depth Anything之间的差距——后者虽然在定量性能上仍略胜一筹,但其预测的深度图细节较少,且需要20倍于PrimeDepth的标注数据。由于本方法与现有数据驱动方法具有互补性,仅通过简单平均PrimeDepth与Depth Anything的预测结果,即可超越两者各自表现,从而在零样本单目深度估计任务上建立新的最先进水平。未来,数据驱动方法亦有望通过引入我们提出的“预图像”表征进一步提升性能。

代码仓库

vislearn/PrimeDepth
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-eth3dPrimeDepth
Delta u003c 1.25: 0.967
absolute relative error: 0.068
monocular-depth-estimation-on-kitti-eigenPrimeDepth
Delta u003c 1.25: 0.937
absolute relative error: 0.079
monocular-depth-estimation-on-kitti-eigenPrimeDepth + Depth Anything
Delta u003c 1.25: 0.953
absolute relative error: 0.073
monocular-depth-estimation-on-nyu-depth-v2PrimeDepth + Depth Anything
Delta u003c 1.25: 0.977
absolute relative error: 0.046
monocular-depth-estimation-on-nyu-depth-v2PrimeDepth
Delta u003c 1.25: 0.966
absolute relative error: 0.058

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PrimeDepth:基于稳定扩散预图像的高效单目深度估计 | 论文 | HyperAI超神经