3 个月前

简单扩散:面向高分辨率图像的端到端扩散模型

简单扩散:面向高分辨率图像的端到端扩散模型

摘要

目前,直接在高分辨率图像的像素空间中应用扩散模型存在较大困难。因此,现有方法通常转而采用低维潜在空间中的扩散(即潜在扩散模型),或采用多级超分辨率生成结构(称为级联生成)。然而,这些方法会为扩散框架引入额外的复杂性。本文旨在提升高分辨率图像的去噪扩散模型性能,同时尽可能保持模型结构的简洁性。研究的核心问题是:如何在高分辨率图像上训练标准的去噪扩散模型,仍能实现与上述替代方法相媲美的生成效果?本文得出四个主要结论:1)针对高分辨率图像,需对噪声调度(noise schedule)进行相应调整;2)仅需对网络架构中的特定部分进行缩放即可取得良好效果;3)在架构的特定位置引入丢弃(dropout)机制可有效提升性能;4)下采样是一种有效避免生成高分辨率特征图的策略。通过结合这些简单而高效的技术手段,本文在ImageNet数据集上实现了无需采样优化器(sampling modifiers)的扩散模型图像生成任务中的最先进性能。

代码仓库

fashn-AI/tryondiffusion
pytorch
GitHub 中提及

基准测试

基准方法指标
conditional-image-generation-on-imagenetsimple diffusion (U-ViT, L)
FID: 3.23
Inception score: 171.9
conditional-image-generation-on-imagenetsimple diffusion (U-Net)
FID: 2.88
Inception score: 137.3
image-generation-on-imagenet-256x256simple diffusion (U-Net)
FID: 3.71
image-generation-on-imagenet-256x256simple diffusion (U-ViT, L)
FID: 3.75
image-generation-on-imagenet-512x512simple diffusion (U-Net)
FID: 4.28
Inception score: 171
image-generation-on-imagenet-512x512simple diffusion (U-ViT, L)
FID: 4.53
Inception score: 205.3
text-to-image-generation-on-cocosimple diffusion (U-ViT)
FID: 8.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
简单扩散:面向高分辨率图像的端到端扩散模型 | 论文 | HyperAI超神经