3 个月前

NÜWA:面向神经视觉世界生成的视觉合成预训练

NÜWA:面向神经视觉世界生成的视觉合成预训练

摘要

本文提出了一种统一的多模态预训练模型——NÜWA,该模型能够生成新视觉数据或对现有视觉数据(如图像和视频)进行操作,以应对多种视觉合成任务。为同时涵盖语言、图像与视频在不同场景下的应用,研究设计了一种三维Transformer编码器-解码器框架,该框架不仅能将视频作为三维数据进行处理,还可分别将文本和图像作为一维与二维数据进行适配。此外,本文还提出了一种三维邻近注意力机制(3D Nearby Attention, 3DNA),以更好地体现视觉数据的内在特性,并有效降低计算复杂度。我们在8个下游任务上对NÜWA进行了评估,实验结果表明,相较于多个强基准模型,NÜWA在文本到图像生成、文本到视频生成、视频预测等任务上均取得了当前最优(state-of-the-art)性能。此外,该模型在文本引导的图像与视频编辑任务中,还展现出令人惊讶的零样本(zero-shot)能力。项目代码仓库地址:https://github.com/microsoft/NUWA。

代码仓库

lucidrains/nuwa-pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cocoDF-GAN (256 x 256)
Inception score: 18.7
text-to-image-generation-on-cocoDALL-E (256 x 256)
FID: 27.5
Inception score: 17.9
text-to-image-generation-on-cocoNÜWA (256 x 256)
FID: 12.9
Inception score: 27.2
text-to-image-generation-on-cocoDM-GAN (256 x 256)
FID: 26.0
Inception score: 32.2
text-to-image-generation-on-cocoAttnGAN (256 x 256)
FID: 35.2
Inception score: 23.3
text-to-image-generation-on-cocoCogView (256 x 256)
FID: 27.1
Inception score: 18.2
text-to-image-generation-on-cocoXMC-GAN (256 x 256)
FID: 9.3
Inception score: 30.5
text-to-video-generation-on-kineticsNUWA (128×128)
Accuracy: 77.9
text-to-video-generation-on-msr-vttNUWA
CLIP-FID: 47.68
CLIPSIM: 0.2439
FID: 47.68
video-generation-on-bair-robot-pushingNUWA
Cond: 1
FVD score: 86.9
Pred: 15
Train: 15

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NÜWA:面向神经视觉世界生成的视觉合成预训练 | 论文 | HyperAI超神经