3 个月前

小数据集上的文本到图像生成中的数据外推

小数据集上的文本到图像生成中的数据外推

摘要

文本到图像生成需要大量训练数据以合成高质量图像。为扩充训练数据,以往方法主要依赖裁剪、翻转和混合等数据插值技术,这些方法无法引入新的信息,仅带来微弱的性能提升。本文提出一种面向文本到图像生成的新数据增强方法,基于线性外推(linear extrapolation)。具体而言,我们仅对文本特征实施线性外推,并通过搜索引擎从互联网检索相应的新图像数据。为确保新生成的文本-图像对的可靠性,我们设计了两种异常值检测器,用于净化检索到的图像。基于外推策略,我们构建的训练样本规模可达原始数据集的数十倍,显著提升了文本到图像生成的性能。此外,我们提出一种NULL引导机制以优化得分估计,并引入递归仿射变换(recurrent affine transformation)实现文本信息的有效融合。实验结果表明,所提模型在CUB、Oxford和COCO数据集上的FID分数分别达到7.91、9.52和5.00。相关代码与数据将公开于GitHub(https://github.com/senmaoy/RAT-Diffusion)。

代码仓库

senmaoy/RAT-Diffusion
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cocoRAT-Diffusion
FID: 5.00
text-to-image-generation-on-cubRAT-Diffusion
FID: 6.36
Inception score: 6.56
text-to-image-generation-on-oxford-102RAT-Diffusion
FID: 9.52
Inception score: 4.35

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
小数据集上的文本到图像生成中的数据外推 | 论文 | HyperAI超神经