Ruben VillegasMohammad BabaeizadehPieter-Jan KindermansHernan MoraldoHan ZhangMohammad Taghi SaffarSantiago CastroJulius KunzeDumitru Erhan

摘要
我们提出 Phenaki,一种能够根据文本提示序列生成逼真视频的模型。从文本生成视频具有显著挑战性,主要源于计算成本高昂、高质量文本-视频数据数量有限,以及视频长度的可变性。为应对这些挑战,我们引入了一种新型视频表示学习模型,该模型可将视频压缩为少量离散的标记(token)表示。该分词器采用时间上的因果注意力机制,使其能够处理长度可变的视频。为了从文本生成视频标记,我们使用一种基于预计算文本标记的双向掩码 Transformer 模型。生成的视频标记随后被解码为实际视频。为缓解数据不足的问题,我们展示了在大规模图像-文本对语料库与少量视频-文本样本上进行联合训练,能够实现超越现有视频数据集范围的泛化能力。与以往的视频生成方法相比,Phenaki 可在开放领域中,基于一系列时变文本提示(即时间可变的文本或故事)生成任意长度的视频。据我们所知,这是首次系统性研究从时变提示生成视频的工作。此外,相较于逐帧生成的基线方法,所提出的视频编码器-解码器在每段视频中计算的标记数量更少,同时显著提升了时空一致性。
代码仓库
LAION-AI/phenaki
pytorch
lucidrains/phenaki-pytorch
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-prediction-on-bair-robot-pushing-1 | Phenaki | FVD: 97 |