SahariaChitwan ; ChanWilliam ; ChangHuiwen ; LeeChris A. ; HoJonathan ; SalimansTim ; FleetDavid J. ; NorouziMohammad

摘要
本文提出了一种基于条件扩散模型的图像到图像转换的统一框架,并在四个具有挑战性的图像到图像转换任务上对该框架进行了评估,这些任务分别是彩色化、修复、去裁剪和JPEG恢复。我们对图像到图像扩散模型的简单实现,在所有任务中均优于强大的生成对抗网络(GAN)和回归基线方法,无需针对特定任务进行超参数调整、架构定制或引入任何辅助损失函数或复杂的新技术。我们揭示了在去噪扩散目标中使用L2损失与L1损失对样本多样性的影响,并通过实证研究展示了神经架构中自注意力机制的重要性。尤为重要的是,我们倡导基于ImageNet的统一评估协议,该协议包括人类评价和样本质量评分(如FID、Inception Score、预训练ResNet-50的分类准确率以及与原始图像的感知距离)。我们期望这一标准化评估协议能够在推动图像到图像转换研究方面发挥重要作用。最后,我们证明了一个通用的多任务扩散模型在性能上可以达到或超过特定任务专用模型的表现。请访问https://diffusion-palette.github.io 以了解结果概览。
代码仓库
omerb01/puq
pytorch
GitHub 中提及
crosszamirski/guided-i2i
pytorch
GitHub 中提及
LouisRouss/Diffusion-Based-Model-for-Colorization
pytorch
GitHub 中提及
Janspiry/Palette-Image-to-Image-Diffusion-Models
pytorch
GitHub 中提及
kylelo/roofdiffusion
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| colorization-on-imagenet-ctest10k | Palette | FID: 3.4 |
| colorization-on-imagenet-val | Palette | FID-5K: 15.78 |
| image-inpainting-on-places2-val | Palatte (20-30% free form) | FID: 11.7 PD: 35.0 |
| image-inpainting-on-places2-val | Palette (128×128 center mask) | FID: 11.9 PD: 57.3 |
| jpeg-decompression-on-imagenet | Palette (QF: 5) | CA: 64.2 FID-5K: 8.3 IS: 133.6 PD: 95.5 |
| jpeg-decompression-on-imagenet | Regression (QF: 5) | CA: 52.8 FID-5K: 29.0 IS: 73.9 PD: 155.4 |
| jpeg-decompression-on-imagenet | Regression (QF: 20) | CA: 69.7 FID-5K: 11.5 IS: 158.7 PD: 65.4 |
| jpeg-decompression-on-imagenet | Palette (QF: 10) | CA: 70.7 FID-5K: 5.4 IS: 180.5 PD: 58.3 |
| jpeg-decompression-on-imagenet | Palette (QF: 20) | CA: 73.5 FID-5K: 4.3 IS: 208.7 PD: 37.1 |
| jpeg-decompression-on-imagenet | Regression (QF: 10) | CA: 63.5 FID-5K: 18.0 IS: 117.2 PD: 102.2 |
| uncropping-on-places2-val | Palette | FID: 3.53 Fool rate: 39.9 PD: 103.3 |