HyperAIHyperAI

Command Palette

Search for a command to run...

PixNerd:像素神经场扩散

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

Abstract

当前扩散变换器(diffusion transformers)的成功在很大程度上依赖于由预训练变分自编码器(VAE)所构建的压缩潜在空间。然而,这种两阶段训练范式不可避免地引入了误差累积和解码伪影。为解决上述问题,研究人员转向像素空间进行建模,但代价是采用复杂的级联流程以及增加的令牌复杂度。与这些方法不同,我们提出通过神经场(neural field)对图像块(patch-wise)进行解码,提出了一种单尺度、单阶段、高效且端到端的解决方案,命名为像素神经场扩散(Pixel Neural Field Diffusion,简称 PixelNerd)。得益于 PixelNerd 中高效的神经场表示,我们无需任何复杂的级联流程或 VAE,便直接在 ImageNet 256×256256\times256256×256 上实现了 2.15 的 FID 分数,在 ImageNet 512×512512\times512512×512 上实现了 2.84 的 FID 分数。此外,我们将 PixelNerd 框架拓展至文本到图像生成任务。其中,PixelNerd-XXL/16 在 GenEval 基准测试中取得了 0.73 的综合得分,在 DPG 基准测试中取得了 80.9 的综合得分,表现具有竞争力。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PixNerd:像素神经场扩散 | Papers | HyperAI超神经