
摘要
我们提出Styleformer,这是一种基于风格的生成器,属于GAN架构,但采用无卷积的Transformer结构。在本文中,我们阐述了Transformer如何生成高质量图像,克服了传统卷积操作难以捕捉图像全局特征的局限性。此外,我们对StyleGAN2中的去调制(demodulation)机制进行了改进,并对现有Transformer结构(如残差连接、层归一化等)进行了优化,构建出一种无需卷积的强风格化生成器。为进一步提升效率,我们引入Linformer技术,使Styleformer模型更加轻量化,从而在保持高性能的同时,显著提升生成高分辨率图像的速度并降低内存消耗。我们在低分辨率图像数据集(如CIFAR-10)和高分辨率图像数据集(如LSUN-Church)上进行了实验。在CIFAR-10这一基准数据集上,Styleformer取得了FID 2.82和IS 9.94的优异成绩,在无需条件输入(unconditional)设置下,其性能与当前最先进方法相当,且在参数量更少的情况下超越了包括StyleGAN2-ADA在内的所有基于GAN的生成模型。此外,在STL-10和CelebA数据集上,Styleformer分别取得了FID 15.17、IS 11.01和FID 3.66的新纪录,实现了新的最先进水平。相关代码已开源,地址为:https://github.com/Jeeseung-Park/Styleformer。
代码仓库
Jeeseung-Park/Styleformer
官方
pytorch
GitHub 中提及
younggeun-kim/Styleformer
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-stl-10 | Styleformer | FID: 15.17 Inception score: 11.01 |