3 个月前

Phenaki:基于开放域文本描述的变长视频生成

Phenaki:基于开放域文本描述的变长视频生成

摘要

我们提出 Phenaki,一种能够根据文本提示序列生成逼真视频的模型。从文本生成视频具有显著挑战性,主要源于计算成本高昂、高质量文本-视频数据数量有限,以及视频长度的可变性。为应对这些挑战,我们引入了一种新型视频表示学习模型,该模型可将视频压缩为少量离散的标记(token)表示。该分词器采用时间上的因果注意力机制,使其能够处理长度可变的视频。为了从文本生成视频标记,我们使用一种基于预计算文本标记的双向掩码 Transformer 模型。生成的视频标记随后被解码为实际视频。为缓解数据不足的问题,我们展示了在大规模图像-文本对语料库与少量视频-文本样本上进行联合训练,能够实现超越现有视频数据集范围的泛化能力。与以往的视频生成方法相比,Phenaki 可在开放领域中,基于一系列时变文本提示(即时间可变的文本或故事)生成任意长度的视频。据我们所知,这是首次系统性研究从时变提示生成视频的工作。此外,相较于逐帧生成的基线方法,所提出的视频编码器-解码器在每段视频中计算的标记数量更少,同时显著提升了时空一致性。

基准测试

基准方法指标
video-prediction-on-bair-robot-pushing-1Phenaki
FVD: 97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供