3 个月前

GALIP:用于文本到图像合成的生成对抗CLIPs

GALIP:用于文本到图像合成的生成对抗CLIPs

摘要

从文本生成高保真复杂图像是一项极具挑战性的任务。基于大规模预训练的自回归模型与扩散模型虽已能够生成逼真的图像,但这类大型模型仍存在三个显著缺陷:其一,模型需依赖海量训练数据与大量参数才能达到良好性能;其二,多步生成机制严重拖慢了图像合成速度;其三,生成的视觉特征难以控制,往往依赖精心设计的提示词(prompt)才能获得理想结果。为实现高质量、高效、快速且可控的文本到图像合成,我们提出了一种新型生成对抗模型——生成对抗式CLIP模型(Generative Adversarial CLIPs,简称GALIP)。GALIP在生成器与判别器中均充分利用了强大的预训练CLIP模型。具体而言,我们设计了一种基于CLIP的判别器,借助CLIP在复杂场景理解方面的强大能力,使判别器能够更准确地评估生成图像的质量。同时,我们提出了一种由CLIP驱动的生成器,通过桥接特征(bridge features)与提示词引导,从CLIP中提取视觉概念,从而实现更精准的语义对齐。得益于CLIP集成的生成器与判别器架构,GALIP显著提升了训练效率,仅需约3%的训练数据与6%的可学习参数,即可达到与大型预训练自回归模型及扩散模型相当的生成效果。此外,我们的模型在图像合成速度上实现了120倍的加速,同时继承了GAN模型平滑的潜在空间特性。大量实验结果表明,GALIP在生成质量、效率与可控性方面均表现出卓越性能。相关代码已开源,地址为:https://github.com/tobran/GALIP。

代码仓库

tobran/galip
官方
pytorch
GitHub 中提及
tobran/DF-GAN
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cocoGALIP (CC12m)
FID: 12.54
text-to-image-generation-on-cubGALIP
FID: 10.08

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GALIP:用于文本到图像合成的生成对抗CLIPs | 论文 | HyperAI超神经