
摘要
图像生成长期以来是一个备受追求但极具挑战性的任务,而实现高效生成更是难上加难。以往研究者常试图构建一种“通用型”生成器,即在参数空间上对差异显著的不同数据集保持高度一致性。本文提出一种基于Transformer的新框架——StyleNAT,旨在实现高质量图像生成的同时,兼具卓越的效率与灵活性。该模型的核心在于精心设计的注意力机制架构,通过引入邻域注意力(Neighborhood Attention, NA)对注意力头进行划分,从而有效捕捉局部与全局信息。不同注意力头可聚焦于不同感受野,使模型能够更优地融合多尺度信息,并以高度灵活的方式适应各类数据。在FFHQ-256数据集上,StyleNAT取得了2.046的全新SOTA(最先进)FID得分,显著优于基于卷积的模型(如StyleGAN-XL)以及先前的Transformer模型(如HIT与StyleSwin);在FFHQ-1024数据集上,其FID得分为4.174,创下Transformer架构下的新SOTA纪录。与StyleGAN-XL相比,StyleNAT在FFHQ-256上性能提升达6.4%,同时参数量减少28%,采样吞吐量提升56%。相关代码与模型将开源至:https://github.com/SHI-Labs/StyleNAT。
代码仓库
SHI-Labs/StyleNAT
官方
pytorch
GitHub 中提及
SHI-Labs/Neighborhood-Attention-Transformer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-ffhq-1024-x-1024 | StyleNAT | FID: 4.17 |
| image-generation-on-ffhq-256-x-256 | StyleNAT | FID: 2.05 |
| image-generation-on-ffhq-256-x-256 | StyleNAT (DINOv2) | FD: 229.72 Precision: 0.79 Recall: 0.41 |
| image-generation-on-lsun-churches-256-x-256 | StyleNAT | FID: 3.4 |