
摘要
近期的研究表明,大型扩散模型可以通过将深度估计视为基于图像的图像生成任务来重用,作为高精度的单目深度估计器。尽管所提出的模型取得了最先进的结果,但由于多步推理导致的高计算需求限制了其在许多场景中的应用。在本文中,我们展示了感知到的低效是由一个迄今为止未被注意到的推理管道缺陷引起的。该固定模型在性能上与之前最佳报告的配置相当,但速度提高了200倍以上。为了优化下游任务的表现,我们在单步模型的基础上进行了端到端微调,并使用特定任务的损失函数,得到了一个确定性的模型,在常见的零样本基准测试中优于所有其他基于扩散的深度和法线估计模型。令人惊讶的是,我们发现这种微调协议也可以直接应用于Stable Diffusion(稳定扩散),并达到了与当前最先进的基于扩散的深度和法线估计模型相当的性能,这使得一些先前研究得出的结论受到了质疑。
代码仓库
VisualComputingInstitute/diffusion-e2e-ft
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-nyu-depth-v2 | Marigold + E2E FT(zero-shot) | Delta u003c 1.25: 0.966 absolute relative error: 0.052 |
| surface-normals-estimation-on-ibims-1 | Marigold + E2E FT(zero-shot) | % u003c 11.25: 69.9 Mean: 15.8 |
| surface-normals-estimation-on-nyu-depth-v2-1 | Marigold + E2E FT(zero-shot) | % u003c 11.25: 61.4 Mean Angle Error: 16.2 |