6 个月前

计算机视觉

Steven Walton Ali Hassani Xingqian Xu Zhangyang Wang Humphrey Shi

摘要

图像生成长期以来是一个备受追求但极具挑战性的任务，而实现高效生成更是难上加难。以往研究者常试图构建一种“通用型”生成器，即在参数空间上对差异显著的不同数据集保持高度一致性。本文提出一种基于Transformer的新框架——StyleNAT，旨在实现高质量图像生成的同时，兼具卓越的效率与灵活性。该模型的核心在于精心设计的注意力机制架构，通过引入邻域注意力（Neighborhood Attention, NA）对注意力头进行划分，从而有效捕捉局部与全局信息。不同注意力头可聚焦于不同感受野，使模型能够更优地融合多尺度信息，并以高度灵活的方式适应各类数据。在FFHQ-256数据集上，StyleNAT取得了2.046的全新SOTA（最先进）FID得分，显著优于基于卷积的模型（如StyleGAN-XL）以及先前的Transformer模型（如HIT与StyleSwin）；在FFHQ-1024数据集上，其FID得分为4.174，创下Transformer架构下的新SOTA纪录。与StyleGAN-XL相比，StyleNAT在FFHQ-256上性能提升达6.4%，同时参数量减少28%，采样吞吐量提升56%。相关代码与模型将开源至：https://github.com/SHI-Labs/StyleNAT。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Steven Walton Ali Hassani Xingqian Xu Zhangyang Wang Humphrey Shi

摘要

图像生成长期以来是一个备受追求但极具挑战性的任务，而实现高效生成更是难上加难。以往研究者常试图构建一种“通用型”生成器，即在参数空间上对差异显著的不同数据集保持高度一致性。本文提出一种基于Transformer的新框架——StyleNAT，旨在实现高质量图像生成的同时，兼具卓越的效率与灵活性。该模型的核心在于精心设计的注意力机制架构，通过引入邻域注意力（Neighborhood Attention, NA）对注意力头进行划分，从而有效捕捉局部与全局信息。不同注意力头可聚焦于不同感受野，使模型能够更优地融合多尺度信息，并以高度灵活的方式适应各类数据。在FFHQ-256数据集上，StyleNAT取得了2.046的全新SOTA（最先进）FID得分，显著优于基于卷积的模型（如StyleGAN-XL）以及先前的Transformer模型（如HIT与StyleSwin）；在FFHQ-1024数据集上，其FID得分为4.174，创下Transformer架构下的新SOTA纪录。与StyleGAN-XL相比，StyleNAT在FFHQ-256上性能提升达6.4%，同时参数量减少28%，采样吞吐量提升56%。相关代码与模型将开源至：https://github.com/SHI-Labs/StyleNAT。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供