6 个月前

摘要

从文本生成高保真复杂图像是一项极具挑战性的任务。基于大规模预训练的自回归模型与扩散模型虽已能够生成逼真的图像，但这类大型模型仍存在三个显著缺陷：其一，模型需依赖海量训练数据与大量参数才能达到良好性能；其二，多步生成机制严重拖慢了图像合成速度；其三，生成的视觉特征难以控制，往往依赖精心设计的提示词（prompt）才能获得理想结果。为实现高质量、高效、快速且可控的文本到图像合成，我们提出了一种新型生成对抗模型——生成对抗式CLIP模型（Generative Adversarial CLIPs，简称GALIP）。GALIP在生成器与判别器中均充分利用了强大的预训练CLIP模型。具体而言，我们设计了一种基于CLIP的判别器，借助CLIP在复杂场景理解方面的强大能力，使判别器能够更准确地评估生成图像的质量。同时，我们提出了一种由CLIP驱动的生成器，通过桥接特征（bridge features）与提示词引导，从CLIP中提取视觉概念，从而实现更精准的语义对齐。得益于CLIP集成的生成器与判别器架构，GALIP显著提升了训练效率，仅需约3%的训练数据与6%的可学习参数，即可达到与大型预训练自回归模型及扩散模型相当的生成效果。此外，我们的模型在图像合成速度上实现了120倍的加速，同时继承了GAN模型平滑的潜在空间特性。大量实验结果表明，GALIP在生成质量、效率与可控性方面均表现出卓越性能。相关代码已开源，地址为：https://github.com/tobran/GALIP。

源 PDF