
摘要
我们介绍了SinDiffusion,该方法利用去噪扩散模型来捕捉单个自然图像中补丁的内部分布。与现有的基于GAN的方法相比,SinDiffusion显著提高了生成样本的质量和多样性。它基于两个核心设计。首先,SinDiffusion在一个单一尺度上使用一个单一模型进行训练,而不是像先前工作中的默认设置那样使用多个模型并逐步增加尺度。这避免了误差的累积,从而减少了生成结果中的特征性伪影。其次,我们发现扩散网络在补丁级别的感受野对于捕捉图像的补丁统计量至关重要且有效,因此我们重新设计了扩散模型的网络结构。结合这两个设计,我们能够从单个图像生成逼真且多样的图像。此外,由于扩散模型固有的能力,SinDiffusion可以应用于多种应用,例如文本引导的图像生成和图像外扩(outpainting)。广泛的实验表明,我们的方法在建模补丁分布方面具有优越性。
代码仓库
weilunwang/sindiffusion
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-places50 | SinDiffusion | LPIPS: 0.387 SIFID: 0.06 |
| image-generation-on-places50 | ExSinGAN | LPIPS: 0.248 SIFID: 0.1 |
| image-generation-on-places50 | SinGan | LPIPS: 0.266 SIFID: 0.09 |
| image-generation-on-places50 | GPNN | LPIPS: 0.256 SIFID: 0.07 |
| image-generation-on-places50 | ConSinGAN | LPIPS: 0.305 SIFID: 0.06 |