6 个月前

计算机视觉

Tariq Berrada Jakob Verbeek Camille Couprie Karteek Alahari

摘要

语义图像合成，即根据用户提供的语义标签图生成图像，是一项重要的条件图像生成任务，因为它能够同时控制生成图像的内容与空间布局。尽管扩散模型在生成图像建模方面已达到当前技术水平，但其推理过程具有迭代特性，导致计算开销较大。相比之下，生成对抗网络（GAN）等方法在生成时仅需一次前向传播，效率更高，但在大规模、多样化数据集上生成的图像质量往往有所下降。本文提出了一类新型GAN判别器，用于语义图像合成，通过利用为图像分类等任务预训练的特征主干网络，生成高度逼真的图像。同时，我们设计了一种新型生成器架构，具备更强的上下文建模能力，并引入交叉注意力机制将噪声注入潜在变量，从而生成更具多样性的图像。我们提出的模型命名为DP-SIMS，在ADE-20K、COCO-Stuff和Cityscapes三个基准数据集上均取得了当前最优的图像质量与输入标签图的一致性表现，显著超越近期扩散模型，且推理阶段所需计算资源仅为后者的百分之一（两个数量级）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Tariq Berrada Jakob Verbeek Camille Couprie Karteek Alahari

摘要

语义图像合成，即根据用户提供的语义标签图生成图像，是一项重要的条件图像生成任务，因为它能够同时控制生成图像的内容与空间布局。尽管扩散模型在生成图像建模方面已达到当前技术水平，但其推理过程具有迭代特性，导致计算开销较大。相比之下，生成对抗网络（GAN）等方法在生成时仅需一次前向传播，效率更高，但在大规模、多样化数据集上生成的图像质量往往有所下降。本文提出了一类新型GAN判别器，用于语义图像合成，通过利用为图像分类等任务预训练的特征主干网络，生成高度逼真的图像。同时，我们设计了一种新型生成器架构，具备更强的上下文建模能力，并引入交叉注意力机制将噪声注入潜在变量，从而生成更具多样性的图像。我们提出的模型命名为DP-SIMS，在ADE-20K、COCO-Stuff和Cityscapes三个基准数据集上均取得了当前最优的图像质量与输入标签图的一致性表现，显著超越近期扩散模型，且推理阶段所需计算资源仅为后者的百分之一（两个数量级）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供