
摘要
我们提出了一种简单、高效且强大的密集视觉预测框架,该框架基于条件扩散(conditional diffusion)流程。我们的方法遵循“噪声到地图”(noise-to-map)的生成范式,通过逐步从随机高斯分布中去除噪声来实现预测,整个过程由输入图像引导。该方法被称为DDP(Denoising Diffusion Pipeline),能够高效地将去噪扩散过程融入现代感知流水线。无需针对特定任务进行专门设计或架构定制,DDP可轻松泛化至大多数密集预测任务,例如语义分割与深度估计。此外,与以往单步判别式方法相比,DDP展现出动态推理和不确定性感知等优异特性。在三个代表性任务上,我们基于六个不同基准进行了评估,未使用任何技巧性优化,DDP在各项任务中均取得了当前最优或具有竞争力的性能表现。例如,在Cityscapes数据集上实现83.9%的mIoU(语义分割),在nuScenes数据集上实现70.6%的mIoU(BEV地图分割),在KITTI数据集上实现0.05的REL误差(深度估计)。我们期望本方法能成为未来研究的坚实基线,推动相关领域的进一步发展。
代码仓库
jiyuanfeng/ddp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-kitti-eigen | DDP (Swin-L, step-3) | Delta u003c 1.25: 0.975 Delta u003c 1.25^2: 0.997 Delta u003c 1.25^3: 0.999 RMSE: 2.072 RMSE log: 0.076 Sq Rel: 0.148 absolute relative error: 0.050 |
| monocular-depth-estimation-on-nyu-depth-v2 | DDP (step3) | Delta u003c 1.25: 0.921 Delta u003c 1.25^2: 0.990 Delta u003c 1.25^3: 0.998 RMSE: 0.329 absolute relative error: 0.094 log 10: 0.040 |
| monocular-depth-estimation-on-sun-rgbd | DDP (step-3) | Delta u003c 1.25: 0.825 Delta u003c 1.25^2: 0.973 Delta u003c 1.25^3: 0.994 RMSE: 0.397 absolute relative error: 0.128 log 10: 0.056 |
| semantic-segmentation-on-ade20k | DDP (Swin-L, step-3) | Params (M): 207 Validation mIoU: 54.4 |
| semantic-segmentation-on-cityscapes-val | DDP (ConvNeXt-L, step-3) | mIoU: 83.9 |