6 个月前

摘要

语义图像合成（Semantic Image Synthesis, SIS）是图像到图像翻译的一个子类，其任务是从语义分割掩码生成逼真的图像。目前，SIS 主要被视为一个监督学习问题。然而，现有最先进方法严重依赖大规模标注数据，无法在无配对（unpaired）设置下应用。相比之下，通用的无配对图像到图像翻译框架性能较差，原因在于它们对语义布局进行颜色编码后输入传统卷积网络，导致网络学习的是外观上的对应关系，而非语义内容本身。在本项初步研究中，我们提出一种全新的无监督语义图像合成范式（Unsupervised Semantic Image Synthesis, USIS），作为缩小配对与无配对设置之间性能差距的第一步。值得注意的是，该框架采用 SPADE 生成器，并引入自监督分割损失，使生成器能够输出具有视觉可分语义类别的图像。此外，为在不丢失高频信息的前提下匹配真实图像的颜色与纹理分布，我们提出采用基于整图小波的判别机制。我们在三个具有挑战性的数据集上验证了所提方法，结果表明，该方法能够在无配对设置下生成具有多模态特性的逼真图像，且图像质量显著提升。

源 PDF