4 个月前

用于鲁棒语义图像合成的随机条件扩散模型

用于鲁棒语义图像合成的随机条件扩散模型

摘要

语义图像合成(SIS)是一项根据语义图(标签)生成逼真图像的任务。然而,在实际应用中,SIS 经常遇到用户输入的噪声问题。为了解决这一问题,我们提出了一种随机条件扩散模型(Stochastic Conditional Diffusion Model, SCDM),这是一种具有鲁棒性的条件扩散模型,其前向过程和生成过程专门为带有噪声标签的 SIS 进行了设计。该模型通过标签扩散(Label Diffusion)随机扰动语义标签图来增强鲁棒性,其中标签扩散采用离散扩散方法。随着时间步长的增加,噪声标签和干净标签的语义图变得越来越相似,并最终在 $t=T$ 时完全相同。这有助于生成接近干净图像的图像,从而实现鲁棒生成。此外,我们还提出了一种类别级噪声调度方案,根据不同的类别差异性地扩散标签。我们在基准数据集上进行了广泛的实验和分析,展示了所提出的方法能够生成高质量样本,包括一种模拟实际应用中人为错误的新实验设置。代码可在 https://github.com/mlvlab/SCDM 获取。

代码仓库

mlvlab/scdm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
conditional-image-generation-on-celebamask-hqSCDM
FID: 17.4
LPIPS: 0.418
mIoU: 77.2
image-to-image-translation-on-ade20k-labelsSCDM
FID: 26.9
LPIPS: 0.530
mIoU: 49.4
image-to-image-translation-on-coco-stuffSCDM
FID: 15.3
LPIPS: 0.519
mIoU: 38.1
noisy-semantic-image-synthesis-on-noisySCDM
FID: 32.4
mIoU: 44.7
noisy-semantic-image-synthesis-on-noisy-1SCDM
FID: 31.2
mIoU: 40.1
noisy-semantic-image-synthesis-on-noisy-2SCDM
FID: 28.1
mIoU: 45.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于鲁棒语义图像合成的随机条件扩散模型 | 论文 | HyperAI超神经