6 个月前

摘要

现有的文本引导图像生成方法仅能生成最高分辨率为 \mbox{ $\text{256}^2$ } 的有限质量图像，且文本指令的语料库规模受限。在本工作中，我们提出了一种统一框架，用于人脸图像的生成与编辑，能够基于多模态输入生成多样化且高质量的图像，其分辨率达到了前所未有的 1024×1024。更重要的是，我们的方法支持开放世界场景，无需任何重训练、微调或后处理，即可同时处理图像与文本输入。具体而言，我们提出了一种全新的文本引导图像生成与编辑范式，充分利用预训练生成对抗网络（GAN）模型的优异特性。该范式包含两项创新策略：第一，训练一个文本编码器，以获得与预训练 GAN 模型分层语义结构对齐的潜在表征（latent codes）；第二，利用预训练语言模型的指导，直接在预训练 GAN 模型的潜在空间中优化这些潜在代码。这些潜在代码可从先验分布中随机采样，也可由给定图像反演获得，从而天然支持基于多模态输入（如草图、语义标签等）并结合文本引导的图像生成与编辑任务。为促进文本引导的多模态图像合成，我们构建了大规模数据集 Multi-Modal CelebA-HQ，该数据集包含真实人脸图像及其对应的语义分割图、草图以及文本描述。在该数据集上开展的大量实验充分验证了所提方法的优越性能。相关代码与数据已开源，地址为：https://github.com/weihaox/TediGAN。