4 个月前

LayoutDiffusion:可控扩散模型用于布局到图像生成

LayoutDiffusion:可控扩散模型用于布局到图像生成

摘要

近期,扩散模型在图像合成领域取得了显著的成功。然而,在布局到图像生成这一任务中,由于图像通常包含多个对象组成的复杂场景,如何对全局布局图和每个详细对象进行强有力的控制仍然是一个具有挑战性的任务。本文提出了一种名为LayoutDiffusion的扩散模型,该模型在生成质量和可控性方面均优于先前的工作。为了解决图像和布局之间的多模态融合难题,我们提出构建带有区域信息的结构化图像块,并将这些图像块转换为一种特殊的布局形式,以统一的方式与常规布局进行融合。此外,本文还提出了布局融合模块(Layout Fusion Module, LFM)和对象感知交叉注意力机制(Object-aware Cross Attention, OaCA),旨在建模多个对象之间的关系,并设计为对象感知和位置敏感,从而实现对空间相关信息的精确控制。大量实验表明,我们的LayoutDiffusion在COCO-Stuff数据集上相对提升了46.35%的FID分数和26.70%的CAS分数,在VG数据集上则分别相对提升了44.29%的FID分数和41.82%的CAS分数。代码已发布在https://github.com/ZGCTroy/LayoutDiffusion。

代码仓库

dcdcvgroup/layout-diffusion-mindspore
官方
mindspore
GitHub 中提及
zgctroy/layoutdiffusion
pytorch
GitHub 中提及

基准测试

基准方法指标
layout-to-image-generation-on-coco-stuff-4LayoutDiffusion (25steps)
FID: 31.68
layout-to-image-generation-on-visual-genome-3LayoutDiffusion
FID: 16.35
layout-to-image-generation-on-visual-genome-4LayoutDiffusion
FID: 15.63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LayoutDiffusion:可控扩散模型用于布局到图像生成 | 论文 | HyperAI超神经