3 个月前

面向开放世界文本引导的人脸图像生成与操控

面向开放世界文本引导的人脸图像生成与操控

摘要

现有的文本引导图像生成方法仅能生成最高分辨率为 \mbox{$\text{256}^2$} 的有限质量图像,且文本指令的语料库规模受限。在本工作中,我们提出了一种统一框架,用于人脸图像的生成与编辑,能够基于多模态输入生成多样化且高质量的图像,其分辨率达到了前所未有的 1024×1024。更重要的是,我们的方法支持开放世界场景,无需任何重训练、微调或后处理,即可同时处理图像与文本输入。具体而言,我们提出了一种全新的文本引导图像生成与编辑范式,充分利用预训练生成对抗网络(GAN)模型的优异特性。该范式包含两项创新策略:第一,训练一个文本编码器,以获得与预训练 GAN 模型分层语义结构对齐的潜在表征(latent codes);第二,利用预训练语言模型的指导,直接在预训练 GAN 模型的潜在空间中优化这些潜在代码。这些潜在代码可从先验分布中随机采样,也可由给定图像反演获得,从而天然支持基于多模态输入(如草图、语义标签等)并结合文本引导的图像生成与编辑任务。为促进文本引导的多模态图像合成,我们构建了大规模数据集 Multi-Modal CelebA-HQ,该数据集包含真实人脸图像及其对应的语义分割图、草图以及文本描述。在该数据集上开展的大量实验充分验证了所提方法的优越性能。相关代码与数据已开源,地址为:https://github.com/weihaox/TediGAN。

代码仓库

weihaox/TediGAN
官方
pytorch
GitHub 中提及
IIGROUP/TediGAN
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-multi-modalTediGAN-B
Acc: 20.4
FID: 101.42
LPIPS: 0.461
Real: 21.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向开放世界文本引导的人脸图像生成与操控 | 论文 | HyperAI超神经