3 个月前

告诉我发生了什么:通过多模态掩码视频生成统一文本引导的视频补全

告诉我发生了什么:通过多模态掩码视频生成统一文本引导的视频补全

摘要

给定视频的前几帧生成完整视频是一项具有挑战性的任务,其核心在于需合理预测具有时间一致性的后续帧。除了视频预测外,从最后一帧回溯(rewind)或在视频首尾之间进行内容补全(infilling)同样至关重要,但这些能力在视频补全领域仍鲜有研究。由于仅凭少数帧提供的线索可能对应多种不同的未来结果,若系统能够根据自然语言指令执行视频补全,将显著提升生成过程的可控性。受此启发,我们提出了一项新任务——文本引导的视频补全(Text-guided Video Completion, TVC),该任务要求模型在自然语言指令的引导下,从部分帧中生成完整的视频序列。为此,我们进一步提出了多模态掩码视频生成(Multimodal Masked Video Generation, MMVG)方法,以应对TVC任务。在训练阶段,MMVG将视频帧离散化为视觉令牌(visual tokens),并随机掩码大部分帧,从而实现从任意时间点出发的视频补全。在推理阶段,仅需一个统一的MMVG模型,通过施加不同的掩码策略,即可同时处理TVC任务中的三种情形:视频预测、视频回溯和中间内容补全。我们在多种视频场景下对MMVG进行了评估,涵盖第一人称视角(egocentric)、动画和游戏视频等类型。大量实验结果表明,MMVG在文本引导下能够有效生成具有高质量视觉表现的视频内容,充分验证了其在视频补全任务中的有效性与通用性。

代码仓库

基准测试

基准方法指标
text-to-video-generation-on-msr-vttMMVG
CLIPSIM: 0.2644
FID: 23.4
video-generation-on-ucf-101MMVG (128x128, class-conditional)
FVD16: 328
Inception Score: 73.7
video-generation-on-ucf-101MMVG (128x128, unconditional)
FVD16: 395
Inception Score: 58.3
video-prediction-on-bair-robot-pushing-1MMVG
FVD: 85.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
告诉我发生了什么:通过多模态掩码视频生成统一文本引导的视频补全 | 论文 | HyperAI超神经