4 个月前

调色板:图像到图像扩散模型

调色板:图像到图像扩散模型

摘要

本文提出了一种基于条件扩散模型的图像到图像转换的统一框架,并在四个具有挑战性的图像到图像转换任务上对该框架进行了评估,这些任务分别是彩色化、修复、去裁剪和JPEG恢复。我们对图像到图像扩散模型的简单实现,在所有任务中均优于强大的生成对抗网络(GAN)和回归基线方法,无需针对特定任务进行超参数调整、架构定制或引入任何辅助损失函数或复杂的新技术。我们揭示了在去噪扩散目标中使用L2损失与L1损失对样本多样性的影响,并通过实证研究展示了神经架构中自注意力机制的重要性。尤为重要的是,我们倡导基于ImageNet的统一评估协议,该协议包括人类评价和样本质量评分(如FID、Inception Score、预训练ResNet-50的分类准确率以及与原始图像的感知距离)。我们期望这一标准化评估协议能够在推动图像到图像转换研究方面发挥重要作用。最后,我们证明了一个通用的多任务扩散模型在性能上可以达到或超过特定任务专用模型的表现。请访问https://diffusion-palette.github.io 以了解结果概览。

代码仓库

omerb01/puq
pytorch
GitHub 中提及
crosszamirski/guided-i2i
pytorch
GitHub 中提及
kylelo/roofdiffusion
pytorch
GitHub 中提及

基准测试

基准方法指标
colorization-on-imagenet-ctest10kPalette
FID: 3.4
colorization-on-imagenet-valPalette
FID-5K: 15.78
image-inpainting-on-places2-valPalatte (20-30% free form)
FID: 11.7
PD: 35.0
image-inpainting-on-places2-valPalette (128×128 center mask)
FID: 11.9
PD: 57.3
jpeg-decompression-on-imagenetPalette (QF: 5)
CA: 64.2
FID-5K: 8.3
IS: 133.6
PD: 95.5
jpeg-decompression-on-imagenetRegression (QF: 5)
CA: 52.8
FID-5K: 29.0
IS: 73.9
PD: 155.4
jpeg-decompression-on-imagenetRegression (QF: 20)
CA: 69.7
FID-5K: 11.5
IS: 158.7
PD: 65.4
jpeg-decompression-on-imagenetPalette (QF: 10)
CA: 70.7
FID-5K: 5.4
IS: 180.5
PD: 58.3
jpeg-decompression-on-imagenetPalette (QF: 20)
CA: 73.5
FID-5K: 4.3
IS: 208.7
PD: 37.1
jpeg-decompression-on-imagenetRegression (QF: 10)
CA: 63.5
FID-5K: 18.0
IS: 117.2
PD: 102.2
uncropping-on-places2-valPalette
FID: 3.53
Fool rate: 39.9
PD: 103.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
调色板:图像到图像扩散模型 | 论文 | HyperAI超神经