3 个月前

PixArt-Σ:用于4K文本到图像生成的扩散Transformer的弱到强训练

PixArt-Σ:用于4K文本到图像生成的扩散Transformer的弱到强训练

摘要

本文介绍了PixArt-Σ,一种能够直接生成4K分辨率图像的扩散Transformer模型(Diffusion Transformer, DiT)。PixArt-Σ相较于其前身PixArt-α实现了显著的技术进步,不仅在图像保真度上大幅提升,而且与文本提示的对齐能力也得到明显增强。PixArt-Σ的核心优势之一在于其卓越的训练效率。该模型基于PixArt-α的预训练基础,通过引入更高质量的数据,从“较弱”基线模型逐步演进为“更强”模型,这一过程我们称之为“弱到强训练”(weak-to-strong training)。PixArt-Σ的突破主要体现在两个方面:(1)高质量训练数据:模型采用了更优质图像数据,并搭配更为精确、详尽的图像描述文本;(2)高效的Token压缩机制:我们在DiT框架内提出了一种新型注意力模块,能够对键(keys)和值(values)进行高效压缩,显著提升了计算效率,从而支持超高清图像的生成。得益于上述改进,PixArt-Σ在保持极小模型规模(仅0.6B参数)的前提下,实现了优于现有文本到图像扩散模型的图像质量与用户提示遵循能力,显著低于当前主流模型如SDXL(2.6B参数)和SD Cascade(5.1B参数)。此外,PixArt-Σ具备生成4K分辨率图像的能力,可广泛应用于高分辨率海报、壁纸等内容创作,高效助力影视、游戏等产业中高质量视觉内容的生产。

代码仓库

PixArt-alpha/PixArt-sigma
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-textatlasevalPixArt-Sigma
StyledTextSynth Clip Score: 0.2764
StyledTextSynth FID: 82.83
StyledTextSynth OCR (Accuracy): 0.42
StyledTextSynth OCR (Cer): 0.90
StyledTextSynth OCR (F1 Score): 0.62
TextScenesHQ Clip Score: 0.2347
TextScenesHQ FID: 72.62
TextScenesHQ OCR (Accuracy): 0.34
TextScenesHQ OCR (Cer): 0.91
TextScenesHQ OCR (F1 Score): 0.53
TextVisionBlend Clip Score: 0.1891
TextVisionBlend FID: 81.29
TextVisionBlend OCR (Accuracy): 2.40
TextVisionBlend OCR (Cer): 0.83
TextVsionBlend OCR (F1 Score): 1.57

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PixArt-Σ:用于4K文本到图像生成的扩散Transformer的弱到强训练 | 论文 | HyperAI超神经