4 个月前

LAFITE:面向无语言训练的文本到图像生成

LAFITE:面向无语言训练的文本到图像生成

摘要

训练文本到图像生成模型的主要挑战之一是需要大量高质量的图像-文本对。虽然图像样本通常容易获取,但相关的文本描述通常需要仔细的人工标注,这尤其耗时且成本高昂。在本文中,我们提出了首个无需任何文本数据即可训练文本到图像生成模型的方法。我们的方法利用了强大的预训练CLIP模型中的多模态语义空间的良好对齐性:通过从图像特征生成文本特征,无缝地缓解了文本条件的需求。我们进行了广泛的实验以证明所提出方法的有效性。在标准的文本到图像生成任务中,我们取得了最先进的结果。重要的是,所提出的无语言模型在性能上超过了大多数使用完整图像-文本对训练的现有模型。此外,我们的方法可以应用于预训练模型的微调,从而节省了训练文本到图像生成模型的时间和成本。我们的预训练模型在MS-COCO数据集上的零样本文本到图像生成任务中获得了具有竞争力的结果,而其模型大小和训练数据量仅约为最近提出的大型DALL-E模型的1%。

代码仓库

drboog/Lafite
官方
pytorch
GitHub 中提及
drboog/Shifted_Diffusion
jax
GitHub 中提及
oxygenlu/ratlip
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cocoLafite
FID: 8.12
Inception score: 32.34
SOA-C: 61.09
text-to-image-generation-on-cocoLafite (zero-shot)
FID: 26.94
FID-1: 22.97
FID-2: 18.70
FID-4: 15.72
FID-8: 14.79
Inception score: 26.02
text-to-image-generation-on-cubLafite
FID: 10.48
Inception score: 5.97
text-to-image-generation-on-multi-modalLafite
FID: 12.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LAFITE:面向无语言训练的文本到图像生成 | 论文 | HyperAI超神经