
摘要
我们介绍了一种新的物理启发生成模型家族,称为PFGM++,该模型统一了扩散模型和泊松流生成模型(PFGM)。这些模型通过在( N+D )维空间中嵌入路径来实现( N )维数据的生成轨迹,同时仍然使用( D )个额外变量的简单标量范数来控制进程。当( D=1 )时,新模型退化为PFGM;当( D \to \infty )时,退化为扩散模型。选择( D )的灵活性使我们能够在鲁棒性和刚性之间进行权衡,因为增加( D )会导致数据与额外变量范数之间的耦合更加集中。我们摒弃了PFGM中使用的有偏大批次场目标,而是提供了一个类似于扩散模型的无偏扰动目标。为了探索不同的( D )值选择,我们提供了一种直接对齐方法,用于将从扩散模型(( D \to \infty ))中精心调整的超参数转移到任何有限的( D )值上。实验结果表明,在CIFAR-10和FFHQ ( 64{\times}64 )数据集上,具有有限( D )值的模型可以优于之前的最先进的扩散模型,其FID分数分别为1.91/2.43(当( D=2048/128 )时)。在类别条件设置下,当( D=2048 )时,在CIFAR-10上的FID分数达到了当前最先进的1.74。此外,我们还证明了具有较小( D )值的模型在建模错误方面表现出更好的鲁棒性。代码可在https://github.com/Newbeeer/pfgmpp获取。
代码仓库
newbeeer/pfgmpp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-cifar-10 | PFGM++ | FID: 1.74 |
| image-generation-on-ffhq-64x64-4x-upscaling | PFGM++ | FID: 2.43 |