3 个月前

DDP:用于密集视觉预测的扩散模型

DDP:用于密集视觉预测的扩散模型

摘要

我们提出了一种简单、高效且强大的密集视觉预测框架,该框架基于条件扩散(conditional diffusion)流程。我们的方法遵循“噪声到地图”(noise-to-map)的生成范式,通过逐步从随机高斯分布中去除噪声来实现预测,整个过程由输入图像引导。该方法被称为DDP(Denoising Diffusion Pipeline),能够高效地将去噪扩散过程融入现代感知流水线。无需针对特定任务进行专门设计或架构定制,DDP可轻松泛化至大多数密集预测任务,例如语义分割与深度估计。此外,与以往单步判别式方法相比,DDP展现出动态推理和不确定性感知等优异特性。在三个代表性任务上,我们基于六个不同基准进行了评估,未使用任何技巧性优化,DDP在各项任务中均取得了当前最优或具有竞争力的性能表现。例如,在Cityscapes数据集上实现83.9%的mIoU(语义分割),在nuScenes数据集上实现70.6%的mIoU(BEV地图分割),在KITTI数据集上实现0.05的REL误差(深度估计)。我们期望本方法能成为未来研究的坚实基线,推动相关领域的进一步发展。

代码仓库

jiyuanfeng/ddp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-kitti-eigenDDP (Swin-L, step-3)
Delta u003c 1.25: 0.975
Delta u003c 1.25^2: 0.997
Delta u003c 1.25^3: 0.999
RMSE: 2.072
RMSE log: 0.076
Sq Rel: 0.148
absolute relative error: 0.050
monocular-depth-estimation-on-nyu-depth-v2DDP (step3)
Delta u003c 1.25: 0.921
Delta u003c 1.25^2: 0.990
Delta u003c 1.25^3: 0.998
RMSE: 0.329
absolute relative error: 0.094
log 10: 0.040
monocular-depth-estimation-on-sun-rgbdDDP (step-3)
Delta u003c 1.25: 0.825
Delta u003c 1.25^2: 0.973
Delta u003c 1.25^3: 0.994
RMSE: 0.397
absolute relative error: 0.128
log 10: 0.056
semantic-segmentation-on-ade20kDDP (Swin-L, step-3)
Params (M): 207
Validation mIoU: 54.4
semantic-segmentation-on-cityscapes-valDDP (ConvNeXt-L, step-3)
mIoU: 83.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DDP:用于密集视觉预测的扩散模型 | 论文 | HyperAI超神经