4 个月前

微调图像条件扩散模型比你想象的要简单

微调图像条件扩散模型比你想象的要简单

摘要

近期的研究表明,大型扩散模型可以通过将深度估计视为基于图像的图像生成任务来重用,作为高精度的单目深度估计器。尽管所提出的模型取得了最先进的结果,但由于多步推理导致的高计算需求限制了其在许多场景中的应用。在本文中,我们展示了感知到的低效是由一个迄今为止未被注意到的推理管道缺陷引起的。该固定模型在性能上与之前最佳报告的配置相当,但速度提高了200倍以上。为了优化下游任务的表现,我们在单步模型的基础上进行了端到端微调,并使用特定任务的损失函数,得到了一个确定性的模型,在常见的零样本基准测试中优于所有其他基于扩散的深度和法线估计模型。令人惊讶的是,我们发现这种微调协议也可以直接应用于Stable Diffusion(稳定扩散),并达到了与当前最先进的基于扩散的深度和法线估计模型相当的性能,这使得一些先前研究得出的结论受到了质疑。

代码仓库

VisualComputingInstitute/diffusion-e2e-ft
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-nyu-depth-v2Marigold + E2E FT(zero-shot)
Delta u003c 1.25: 0.966
absolute relative error: 0.052
surface-normals-estimation-on-ibims-1Marigold + E2E FT(zero-shot)
% u003c 11.25: 69.9
Mean: 15.8
surface-normals-estimation-on-nyu-depth-v2-1Marigold + E2E FT(zero-shot)
% u003c 11.25: 61.4
Mean Angle Error: 16.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
微调图像条件扩散模型比你想象的要简单 | 论文 | HyperAI超神经