8 个月前

计算机视觉

Yufan Zhou Ruiyi Zhang Changyou Chen Chunyuan Li Chris Tensmeyer Tong Yu Jiuxiang Gu Jinhui Xu Tong Sun

摘要

训练文本到图像生成模型的主要挑战之一是需要大量高质量的图像-文本对。虽然图像样本通常容易获取，但相关的文本描述通常需要仔细的人工标注，这尤其耗时且成本高昂。在本文中，我们提出了首个无需任何文本数据即可训练文本到图像生成模型的方法。我们的方法利用了强大的预训练CLIP模型中的多模态语义空间的良好对齐性：通过从图像特征生成文本特征，无缝地缓解了文本条件的需求。我们进行了广泛的实验以证明所提出方法的有效性。在标准的文本到图像生成任务中，我们取得了最先进的结果。重要的是，所提出的无语言模型在性能上超过了大多数使用完整图像-文本对训练的现有模型。此外，我们的方法可以应用于预训练模型的微调，从而节省了训练文本到图像生成模型的时间和成本。我们的预训练模型在MS-COCO数据集上的零样本文本到图像生成任务中获得了具有竞争力的结果，而其模型大小和训练数据量仅约为最近提出的大型DALL-E模型的1%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Yufan Zhou Ruiyi Zhang Changyou Chen Chunyuan Li Chris Tensmeyer Tong Yu Jiuxiang Gu Jinhui Xu Tong Sun

摘要

训练文本到图像生成模型的主要挑战之一是需要大量高质量的图像-文本对。虽然图像样本通常容易获取，但相关的文本描述通常需要仔细的人工标注，这尤其耗时且成本高昂。在本文中，我们提出了首个无需任何文本数据即可训练文本到图像生成模型的方法。我们的方法利用了强大的预训练CLIP模型中的多模态语义空间的良好对齐性：通过从图像特征生成文本特征，无缝地缓解了文本条件的需求。我们进行了广泛的实验以证明所提出方法的有效性。在标准的文本到图像生成任务中，我们取得了最先进的结果。重要的是，所提出的无语言模型在性能上超过了大多数使用完整图像-文本对训练的现有模型。此外，我们的方法可以应用于预训练模型的微调，从而节省了训练文本到图像生成模型的时间和成本。我们的预训练模型在MS-COCO数据集上的零样本文本到图像生成任务中获得了具有竞争力的结果，而其模型大小和训练数据量仅约为最近提出的大型DALL-E模型的1%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

LAFITE：面向无语言训练的文本到图像生成 | 论文 | HyperAI超神经