4 个月前

NUWA-Infinity:自回归生成模型的无限视觉合成

NUWA-Infinity:自回归生成模型的无限视觉合成

摘要

本文介绍了NUWA-Infinity,这是一种用于无限视觉合成的生成模型,其任务是生成任意大小的高分辨率图像或长时视频。为了应对这一可变尺寸的生成任务,我们提出了一种自回归嵌套自回归(Autoregressive over Autoregressive)的生成机制,其中全局块级自回归模型考虑了各块之间的依赖关系,而局部标记级自回归模型则考虑了每个块内视觉标记之间的依赖关系。引入了临近上下文池(Nearby Context Pool, NCP)来缓存已生成的相关块作为当前块生成的上下文,这可以在不牺牲块级依赖建模的情况下显著降低计算成本。任意方向控制器(Arbitrary Direction Controller, ADC)用于确定不同视觉合成任务的合适生成顺序,并学习顺序感知的位置嵌入。与DALL-E、Imagen和Parti相比,NUWA-Infinity不仅可以生成任意大小的高分辨率图像,还支持长时视频的生成。与同样涵盖图像和视频的NUWA相比,NUWA-Infinity在分辨率和可变尺寸生成方面具有更出色的视觉合成能力。GitHub链接为:https://github.com/microsoft/NUWA。主页链接为:https://nuwa-infinity.microsoft.com。

代码仓库

microsoft/nuwa
官方
GitHub 中提及

基准测试

基准方法指标
image-outpainting-on-lhqcNUWA-Infinity w/o text
Block-FID (Right Extend): 6.43
Block-FID (Down Extend): 11.47
Block-FID (Left Extend): 6.71
Block-FID (Up Extend): 8.03
image-outpainting-on-lhqcNUWA-Infinity
Block-FID (Right Extend): 6.45
Block-FID (Down Extend): 9.84
Block-FID (Left Extend): 6.72
Block-FID (Up Extend): 7.43
text-to-image-generation-on-lhqcNUWA-Infinity
Block-FID: 9.71

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NUWA-Infinity:自回归生成模型的无限视觉合成 | 论文 | HyperAI超神经