3 个月前

通过多分辨率扩散模型缓解图像生成中的失真问题

通过多分辨率扩散模型缓解图像生成中的失真问题

摘要

本文提出了一种针对扩散模型的创新性改进方法,通过引入一种新型多分辨率网络(Multi-Resolution Network)与时间依赖层归一化(Time-Dependent Layer Normalization, TD-LN),显著提升了模型性能。扩散模型因其在高保真图像生成任务中的出色表现而备受关注。尽管传统方法主要依赖卷积神经网络结构的U-Net架构,但近年来基于Transformer的设计在性能与可扩展性方面展现出更优潜力。然而,Transformer架构通过“分块”(patchification)方式对输入数据进行token化处理,其自注意力机制的计算复杂度随token数量呈二次增长,导致在视觉保真度与计算开销之间存在权衡。较大的分块尺寸虽能提升注意力计算效率,却难以捕捉精细的视觉细节,从而引发图像失真问题。为解决上述挑战,本文提出在扩散模型中引入多分辨率网络(DiMR),该框架通过在多个分辨率层级上逐步优化特征表示,实现从低分辨率到高分辨率的细节逐级增强。此外,本文还提出时间依赖层归一化(TD-LN),一种参数高效的方法,通过在层归一化中引入时间相关参数,有效注入时间信息,从而提升模型生成质量。所提方法在类别条件下的ImageNet图像生成基准测试中得到验证,其中DiMR-XL系列模型在ImageNet 256×256和512×512图像生成任务上分别取得了1.70和2.89的FID分数,刷新了当前最优性能记录。项目主页:https://qihao067.github.io/projects/DiMR

代码仓库

qihao067/DiMR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-imagenet-256x256DiMR-G/2R
FID: 1.63
image-generation-on-imagenet-256x256DiMR-XL/2R
FID: 1.70
image-generation-on-imagenet-512x512DiMR-XL/3R
FID: 2.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过多分辨率扩散模型缓解图像生成中的失真问题 | 论文 | HyperAI超神经