3 个月前

用于语义图像合成的预训练图像主干网络解锁

用于语义图像合成的预训练图像主干网络解锁

摘要

语义图像合成,即根据用户提供的语义标签图生成图像,是一项重要的条件图像生成任务,因为它能够同时控制生成图像的内容与空间布局。尽管扩散模型在生成图像建模方面已达到当前技术水平,但其推理过程具有迭代特性,导致计算开销较大。相比之下,生成对抗网络(GAN)等方法在生成时仅需一次前向传播,效率更高,但在大规模、多样化数据集上生成的图像质量往往有所下降。本文提出了一类新型GAN判别器,用于语义图像合成,通过利用为图像分类等任务预训练的特征主干网络,生成高度逼真的图像。同时,我们设计了一种新型生成器架构,具备更强的上下文建模能力,并引入交叉注意力机制将噪声注入潜在变量,从而生成更具多样性的图像。我们提出的模型命名为DP-SIMS,在ADE-20K、COCO-Stuff和Cityscapes三个基准数据集上均取得了当前最优的图像质量与输入标签图的一致性表现,显著超越近期扩散模型,且推理阶段所需计算资源仅为后者的百分之一(两个数量级)。

基准测试

基准方法指标
image-to-image-translation-on-ade20k-labelsDP-SIMS (ConvNext-L)
FID: 22.7
mIoU: 54.3
image-to-image-translation-on-cityscapesDP-SIMS (ConvNext-L)
FID: 38.2
mIoU: 76.3
image-to-image-translation-on-coco-stuffDP-SIMS (ConvNext-L)
FID: 13.6
image-to-image-translation-on-coco-stuffDP-SIMS (ConvNext-XL)
FID: 13.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于语义图像合成的预训练图像主干网络解锁 | 论文 | HyperAI超神经