3 个月前

DDP：用于密集视觉预测的扩散模型

Yuanfeng Ji Zhe Chen Enze Xie Lanqing Hong Xihui Liu Zhaoqiang Liu Tong Lu Zhenguo Li Ping Luo

摘要

我们提出了一种简单、高效且强大的密集视觉预测框架，该框架基于条件扩散（conditional diffusion）流程。我们的方法遵循“噪声到地图”（noise-to-map）的生成范式，通过逐步从随机高斯分布中去除噪声来实现预测，整个过程由输入图像引导。该方法被称为DDP（Denoising Diffusion Pipeline），能够高效地将去噪扩散过程融入现代感知流水线。无需针对特定任务进行专门设计或架构定制，DDP可轻松泛化至大多数密集预测任务，例如语义分割与深度估计。此外，与以往单步判别式方法相比，DDP展现出动态推理和不确定性感知等优异特性。在三个代表性任务上，我们基于六个不同基准进行了评估，未使用任何技巧性优化，DDP在各项任务中均取得了当前最优或具有竞争力的性能表现。例如，在Cityscapes数据集上实现83.9%的mIoU（语义分割），在nuScenes数据集上实现70.6%的mIoU（BEV地图分割），在KITTI数据集上实现0.05的REL误差（深度估计）。我们期望本方法能成为未来研究的坚实基线，推动相关领域的进一步发展。

代码仓库

jiyuanfeng/ddp

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
monocular-depth-estimation-on-kitti-eigen	DDP (Swin-L, step-3)	Delta u003c 1.25: 0.975 Delta u003c 1.25^2: 0.997 Delta u003c 1.25^3: 0.999 RMSE: 2.072 RMSE log: 0.076 Sq Rel: 0.148 absolute relative error: 0.050
monocular-depth-estimation-on-nyu-depth-v2	DDP (step3)	Delta u003c 1.25: 0.921 Delta u003c 1.25^2: 0.990 Delta u003c 1.25^3: 0.998 RMSE: 0.329 absolute relative error: 0.094 log 10: 0.040
monocular-depth-estimation-on-sun-rgbd	DDP (step-3)	Delta u003c 1.25: 0.825 Delta u003c 1.25^2: 0.973 Delta u003c 1.25^3: 0.994 RMSE: 0.397 absolute relative error: 0.128 log 10: 0.056
semantic-segmentation-on-ade20k	DDP (Swin-L, step-3)	Params (M): 207 Validation mIoU: 54.4
semantic-segmentation-on-cityscapes-val	DDP (ConvNeXt-L, step-3)	mIoU: 83.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供