6 个月前

摘要

在大规模预训练文本到视频扩散模型（Text-to-Video Diffusion Models, VDMs）领域，已取得显著进展。然而，以往的方法要么仅依赖基于像素的VDM，导致计算成本高昂；要么依赖基于潜在空间的VDM，往往难以实现精确的文本-视频对齐。本文首次提出一种混合模型——Show-1，该模型创新性地融合了基于像素和基于潜在空间的VDM，用于文本到视频生成任务。具体而言，我们的模型首先利用基于像素的VDM生成具有强文本-视频关联性的低分辨率视频。随后，提出一种新颖的专家转换（expert translation）方法，通过潜在空间VDM对低分辨率视频进行进一步上采样至高分辨率，同时有效消除低分辨率视频中可能存在的伪影和失真。与仅使用潜在空间VDM的方法相比，Show-1能够生成在文本-视频对齐精度和视觉质量方面均更优的视频；与基于像素的VDM相比，Show-1在推理阶段显著提升效率，GPU显存占用仅为15GB，远低于后者72GB。此外，通过简单的时序注意力层微调，Show-1模型可轻松拓展至动作定制（motion customization）与视频风格化（video stylization）等应用。在标准视频生成基准测试中，Show-1取得了当前最优的性能表现。相关代码与模型权重已公开发布于：https://github.com/showlab/Show-1。

源 PDF