
摘要
本文提出了一种针对扩散模型的创新性改进方法,通过引入一种新型多分辨率网络(Multi-Resolution Network)与时间依赖层归一化(Time-Dependent Layer Normalization, TD-LN),显著提升了模型性能。扩散模型因其在高保真图像生成任务中的出色表现而备受关注。尽管传统方法主要依赖卷积神经网络结构的U-Net架构,但近年来基于Transformer的设计在性能与可扩展性方面展现出更优潜力。然而,Transformer架构通过“分块”(patchification)方式对输入数据进行token化处理,其自注意力机制的计算复杂度随token数量呈二次增长,导致在视觉保真度与计算开销之间存在权衡。较大的分块尺寸虽能提升注意力计算效率,却难以捕捉精细的视觉细节,从而引发图像失真问题。为解决上述挑战,本文提出在扩散模型中引入多分辨率网络(DiMR),该框架通过在多个分辨率层级上逐步优化特征表示,实现从低分辨率到高分辨率的细节逐级增强。此外,本文还提出时间依赖层归一化(TD-LN),一种参数高效的方法,通过在层归一化中引入时间相关参数,有效注入时间信息,从而提升模型生成质量。所提方法在类别条件下的ImageNet图像生成基准测试中得到验证,其中DiMR-XL系列模型在ImageNet 256×256和512×512图像生成任务上分别取得了1.70和2.89的FID分数,刷新了当前最优性能记录。项目主页:https://qihao067.github.io/projects/DiMR
代码仓库
qihao067/DiMR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-imagenet-256x256 | DiMR-G/2R | FID: 1.63 |
| image-generation-on-imagenet-256x256 | DiMR-XL/2R | FID: 1.70 |
| image-generation-on-imagenet-512x512 | DiMR-XL/3R | FID: 2.89 |