3 个月前

StyleNAT:为每个头赋予新视角

StyleNAT:为每个头赋予新视角

摘要

图像生成长期以来是一个备受追求但极具挑战性的任务,而实现高效生成更是难上加难。以往研究者常试图构建一种“通用型”生成器,即在参数空间上对差异显著的不同数据集保持高度一致性。本文提出一种基于Transformer的新框架——StyleNAT,旨在实现高质量图像生成的同时,兼具卓越的效率与灵活性。该模型的核心在于精心设计的注意力机制架构,通过引入邻域注意力(Neighborhood Attention, NA)对注意力头进行划分,从而有效捕捉局部与全局信息。不同注意力头可聚焦于不同感受野,使模型能够更优地融合多尺度信息,并以高度灵活的方式适应各类数据。在FFHQ-256数据集上,StyleNAT取得了2.046的全新SOTA(最先进)FID得分,显著优于基于卷积的模型(如StyleGAN-XL)以及先前的Transformer模型(如HIT与StyleSwin);在FFHQ-1024数据集上,其FID得分为4.174,创下Transformer架构下的新SOTA纪录。与StyleGAN-XL相比,StyleNAT在FFHQ-256上性能提升达6.4%,同时参数量减少28%,采样吞吐量提升56%。相关代码与模型将开源至:https://github.com/SHI-Labs/StyleNAT。

代码仓库

SHI-Labs/StyleNAT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-ffhq-1024-x-1024StyleNAT
FID: 4.17
image-generation-on-ffhq-256-x-256StyleNAT
FID: 2.05
image-generation-on-ffhq-256-x-256StyleNAT (DINOv2)
FD: 229.72
Precision: 0.79
Recall: 0.41
image-generation-on-lsun-churches-256-x-256StyleNAT
FID: 3.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
StyleNAT:为每个头赋予新视角 | 论文 | HyperAI超神经