4 个月前

LaCon:延迟约束扩散用于可引导图像生成

LaCon:延迟约束扩散用于可引导图像生成

摘要

扩散模型在生成逼真和富有创意的图像方面展现了令人印象深刻的能力。为了提高生成过程的可控性,现有的研究方法(本文中称为早期约束方法)利用额外条件并将其整合到预训练的扩散模型中。特别是,其中一些方法采用了特定条件模块来分别处理不同的条件,但这些方法在泛化到其他条件时遇到了困难。尽管后续的研究提出了统一的解决方案来解决泛化问题,但这些方案也需要额外的资源来实现,例如额外的输入或参数优化,因此人们期望更加灵活和高效的解决方案来进行可控制的引导图像合成。在本文中,我们提出了一种替代范式,即晚期约束扩散(Late-Constraint Diffusion, LaCon),以同时将多种条件整合到预训练的扩散模型中。具体而言,LaCon 建立了外部条件与扩散模型内部特征之间的对齐关系,并利用这种对齐关系将目标条件融入模型中,从而引导采样过程生成定制的结果。实验结果表明,在 COCO 数据集上,LaCon 在各种条件和设置下均表现出有效性和卓越的泛化能力。消融研究表明了 LaCon 中不同组件的功能,并展示了其作为高效解决方案的巨大潜力,可以为扩散模型提供灵活的可控性。

代码仓库

AlonzoLeeeooo/LCDG
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
conditional-text-to-image-synthesis-on-cocoSD using SDEdit
FID: 71.16
conditional-text-to-image-synthesis-on-cocoSD using SDEdit (evaluated under color stroke)
CLIP Score: 0.2257
FID: 32.93
conditional-text-to-image-synthesis-on-cocoSD using SDEdit (evaluated under image palette)
CLIP Score: 0.2138
conditional-text-to-image-synthesis-on-cocoLCDG (Color, evaluated under image palette)
CLIP Score: 0.2580
FID: 20.61
conditional-text-to-image-synthesis-on-cocoSD (text)
CLIP Score: 0.2673
FID: 27.99
conditional-text-to-image-synthesis-on-cocoLCDG (Edge)
FID: 21.02
conditional-text-to-image-synthesis-on-cocoLCDG
FID: 20.27
conditional-text-to-image-synthesis-on-cocoT2I-Adapter (Sketch)
CLIP Score: 0.2580
FID: 21.72
conditional-text-to-image-synthesis-on-cocoT2I-Adapter (Color, evaluated under image palette)
CLIP Score: 0.2613
FID: 26.54
conditional-text-to-image-synthesis-on-cocoT2I-Adapter (Color, evaluated under color stroke)
FID: 30.84
conditional-text-to-image-synthesis-on-cocoLCDG (Mask)
CLIP Score: 0.2617
FID: 20.94
conditional-text-to-image-synthesis-on-cocoControlNet (HED Edge)
CLIP Score: 0.2525
FID: 28.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LaCon:延迟约束扩散用于可引导图像生成 | 论文 | HyperAI超神经