
摘要
扩散模型在生成逼真和富有创意的图像方面展现了令人印象深刻的能力。为了提高生成过程的可控性,现有的研究方法(本文中称为早期约束方法)利用额外条件并将其整合到预训练的扩散模型中。特别是,其中一些方法采用了特定条件模块来分别处理不同的条件,但这些方法在泛化到其他条件时遇到了困难。尽管后续的研究提出了统一的解决方案来解决泛化问题,但这些方案也需要额外的资源来实现,例如额外的输入或参数优化,因此人们期望更加灵活和高效的解决方案来进行可控制的引导图像合成。在本文中,我们提出了一种替代范式,即晚期约束扩散(Late-Constraint Diffusion, LaCon),以同时将多种条件整合到预训练的扩散模型中。具体而言,LaCon 建立了外部条件与扩散模型内部特征之间的对齐关系,并利用这种对齐关系将目标条件融入模型中,从而引导采样过程生成定制的结果。实验结果表明,在 COCO 数据集上,LaCon 在各种条件和设置下均表现出有效性和卓越的泛化能力。消融研究表明了 LaCon 中不同组件的功能,并展示了其作为高效解决方案的巨大潜力,可以为扩散模型提供灵活的可控性。
代码仓库
AlonzoLeeeooo/LCDG
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conditional-text-to-image-synthesis-on-coco | SD using SDEdit | FID: 71.16 |
| conditional-text-to-image-synthesis-on-coco | SD using SDEdit (evaluated under color stroke) | CLIP Score: 0.2257 FID: 32.93 |
| conditional-text-to-image-synthesis-on-coco | SD using SDEdit (evaluated under image palette) | CLIP Score: 0.2138 |
| conditional-text-to-image-synthesis-on-coco | LCDG (Color, evaluated under image palette) | CLIP Score: 0.2580 FID: 20.61 |
| conditional-text-to-image-synthesis-on-coco | SD (text) | CLIP Score: 0.2673 FID: 27.99 |
| conditional-text-to-image-synthesis-on-coco | LCDG (Edge) | FID: 21.02 |
| conditional-text-to-image-synthesis-on-coco | LCDG | FID: 20.27 |
| conditional-text-to-image-synthesis-on-coco | T2I-Adapter (Sketch) | CLIP Score: 0.2580 FID: 21.72 |
| conditional-text-to-image-synthesis-on-coco | T2I-Adapter (Color, evaluated under image palette) | CLIP Score: 0.2613 FID: 26.54 |
| conditional-text-to-image-synthesis-on-coco | T2I-Adapter (Color, evaluated under color stroke) | FID: 30.84 |
| conditional-text-to-image-synthesis-on-coco | LCDG (Mask) | CLIP Score: 0.2617 FID: 20.94 |
| conditional-text-to-image-synthesis-on-coco | ControlNet (HED Edge) | CLIP Score: 0.2525 FID: 28.09 |