
摘要
给定视频的前几帧生成完整视频是一项具有挑战性的任务,其核心在于需合理预测具有时间一致性的后续帧。除了视频预测外,从最后一帧回溯(rewind)或在视频首尾之间进行内容补全(infilling)同样至关重要,但这些能力在视频补全领域仍鲜有研究。由于仅凭少数帧提供的线索可能对应多种不同的未来结果,若系统能够根据自然语言指令执行视频补全,将显著提升生成过程的可控性。受此启发,我们提出了一项新任务——文本引导的视频补全(Text-guided Video Completion, TVC),该任务要求模型在自然语言指令的引导下,从部分帧中生成完整的视频序列。为此,我们进一步提出了多模态掩码视频生成(Multimodal Masked Video Generation, MMVG)方法,以应对TVC任务。在训练阶段,MMVG将视频帧离散化为视觉令牌(visual tokens),并随机掩码大部分帧,从而实现从任意时间点出发的视频补全。在推理阶段,仅需一个统一的MMVG模型,通过施加不同的掩码策略,即可同时处理TVC任务中的三种情形:视频预测、视频回溯和中间内容补全。我们在多种视频场景下对MMVG进行了评估,涵盖第一人称视角(egocentric)、动画和游戏视频等类型。大量实验结果表明,MMVG在文本引导下能够有效生成具有高质量视觉表现的视频内容,充分验证了其在视频补全任务中的有效性与通用性。
代码仓库
tsujuifu/pytorch_tvc
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-video-generation-on-msr-vtt | MMVG | CLIPSIM: 0.2644 FID: 23.4 |
| video-generation-on-ucf-101 | MMVG (128x128, class-conditional) | FVD16: 328 Inception Score: 73.7 |
| video-generation-on-ucf-101 | MMVG (128x128, unconditional) | FVD16: 395 Inception Score: 58.3 |
| video-prediction-on-bair-robot-pushing-1 | MMVG | FVD: 85.2 |