3 个月前

你只需对抗性监督即可实现语义图像合成

你只需对抗性监督即可实现语义图像合成

摘要

尽管近年来生成对抗网络(GAN)在语义图像合成任务中取得了显著进展,但在仅依赖对抗性监督进行训练时,其生成图像的质量仍存在不足。历史上,引入基于VGG的感知损失(perceptual loss)在一定程度上缓解了这一问题,显著提升了合成图像的质量,但同时也制约了GAN模型在语义图像合成方向的进一步发展。在本工作中,我们提出一种新颖且简化的GAN模型,仅通过对抗性监督即可实现高质量的图像生成。我们重新设计了判别器,将其构造成一个语义分割网络,并直接将给定的语义标签图(label maps)作为训练的真值(ground truth)。通过引入具有空间与语义感知能力的判别器反馈机制,我们为判别器和生成器提供了更强的监督信号,从而实现了与输入标签图更高保真度、更精准对齐的图像合成,使得感知损失的使用变得不再必要。此外,我们通过在生成器中注入三维噪声张量并结合全局与局部采样策略,实现了高质量的多模态图像合成,支持图像的完整或局部修改。实验表明,本模型生成的图像具有更高的多样性,并更准确地遵循真实图像的颜色与纹理分布特征。在多个数据集上,仅使用对抗性监督,我们的方法相比当前最优技术平均提升了6个FID分数和5个mIoU分数。

代码仓库

boschresearch/OASIS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-to-image-translation-on-ade20k-labelsOASIS
FID: 28.3
LPIPS: 0.265
mIoU: 48.8
image-to-image-translation-on-ade20k-outdoorOASIS
FID: 48.6
mIoU: 40.4
image-to-image-translation-on-cityscapesOASIS
FID: 47.7
LPIPS: 0.275
mIoU: 69.3
image-to-image-translation-on-coco-stuffOASIS
FID: 17.0
mIoU: 44.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
你只需对抗性监督即可实现语义图像合成 | 论文 | HyperAI超神经