
摘要
本文介绍了PixArt-Σ,一种能够直接生成4K分辨率图像的扩散Transformer模型(Diffusion Transformer, DiT)。PixArt-Σ相较于其前身PixArt-α实现了显著的技术进步,不仅在图像保真度上大幅提升,而且与文本提示的对齐能力也得到明显增强。PixArt-Σ的核心优势之一在于其卓越的训练效率。该模型基于PixArt-α的预训练基础,通过引入更高质量的数据,从“较弱”基线模型逐步演进为“更强”模型,这一过程我们称之为“弱到强训练”(weak-to-strong training)。PixArt-Σ的突破主要体现在两个方面:(1)高质量训练数据:模型采用了更优质图像数据,并搭配更为精确、详尽的图像描述文本;(2)高效的Token压缩机制:我们在DiT框架内提出了一种新型注意力模块,能够对键(keys)和值(values)进行高效压缩,显著提升了计算效率,从而支持超高清图像的生成。得益于上述改进,PixArt-Σ在保持极小模型规模(仅0.6B参数)的前提下,实现了优于现有文本到图像扩散模型的图像质量与用户提示遵循能力,显著低于当前主流模型如SDXL(2.6B参数)和SD Cascade(5.1B参数)。此外,PixArt-Σ具备生成4K分辨率图像的能力,可广泛应用于高分辨率海报、壁纸等内容创作,高效助力影视、游戏等产业中高质量视觉内容的生产。
代码仓库
PixArt-alpha/PixArt-sigma
官方
pytorch
GitHub 中提及
mindspore-lab/mindone
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-textatlaseval | PixArt-Sigma | StyledTextSynth Clip Score: 0.2764 StyledTextSynth FID: 82.83 StyledTextSynth OCR (Accuracy): 0.42 StyledTextSynth OCR (Cer): 0.90 StyledTextSynth OCR (F1 Score): 0.62 TextScenesHQ Clip Score: 0.2347 TextScenesHQ FID: 72.62 TextScenesHQ OCR (Accuracy): 0.34 TextScenesHQ OCR (Cer): 0.91 TextScenesHQ OCR (F1 Score): 0.53 TextVisionBlend Clip Score: 0.1891 TextVisionBlend FID: 81.29 TextVisionBlend OCR (Accuracy): 2.40 TextVisionBlend OCR (Cer): 0.83 TextVsionBlend OCR (F1 Score): 1.57 |