3 个月前

基于扩散模型的图像生成器在单目深度估计中的再利用

基于扩散模型的图像生成器在单目深度估计中的再利用

摘要

单目深度估计是计算机视觉中的一项基础任务。从单张图像恢复三维深度在几何上属于病态问题,需要依赖对场景的深入理解,因此深度学习的兴起带来了该领域的突破性进展。近年来,单目深度估计模型的性能不断提升,其模型容量也从相对简单的卷积神经网络(CNN)发展到大规模的Transformer架构。然而,当面对训练数据中未见过的内容或布局时,现有方法往往表现不佳,这是因为其对视觉世界的认知受限于训练阶段所见数据,难以实现对新领域的零样本泛化。这一挑战促使我们思考:近期生成式扩散模型中所蕴含的丰富先验知识,是否能够用于提升深度估计的性能与泛化能力?为此,我们提出了Marigold——一种基于Stable Diffusion构建的仿射不变单目深度估计方法,该方法保留了原始模型中丰富的先验知识。该估计器仅需在单张GPU上使用合成数据进行数天的微调,即可实现卓越性能。在多个广泛的数据集上,Marigold均达到了当前最优水平,部分场景下性能提升超过20%。项目主页:https://marigoldmonodepth.github.io。

代码仓库

indu1ge/DepthMaster
pytorch
GitHub 中提及
prs-eth/marigold
官方
pytorch
GitHub 中提及
damaggu/tadp
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-eth3dMarigold
Delta u003c 1.25: 0.0960
absolute relative error: 0.065
monocular-depth-estimation-on-kitti-eigenMarigold
Delta u003c 1.25: 0.916
Delta u003c 1.25^2: 0.987
Delta u003c 1.25^3: 0.996
RMSE: 3.304
RMSE log: 0.138
absolute relative error: 0.099
monocular-depth-estimation-on-nyu-depth-v2Marigold
Delta u003c 1.25: 0.964
Delta u003c 1.25^2: 0.991
Delta u003c 1.25^3: 0.998
RMSE: 0.224
absolute relative error: 0.055
log 10: 0.024

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于扩散模型的图像生成器在单目深度估计中的再利用 | 论文 | HyperAI超神经