
摘要
本文介绍了ModelScopeT2V,一种从文本到图像生成模型(即Stable Diffusion)演进而来的文本到视频合成模型。ModelScopeT2V引入了时空块(spatio-temporal blocks),以确保视频帧生成的一致性以及运动过渡的流畅性。该模型在训练与推理阶段均可适应不同数量的帧,因而适用于图像-文本与视频-文本两类数据集。ModelScopeT2V整合了三个核心组件:VQGAN、文本编码器(text encoder)以及去噪UNet,整体参数量达17亿,其中5亿参数专门用于建模时间维度能力。在三项评估指标上,ModelScopeT2V均展现出优于当前先进方法的性能表现。相关代码及在线演示已开放,可通过以下链接访问:\url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}。
代码仓库
exponentialml/text-to-video-finetuning
官方
pytorch
GitHub 中提及
yhZhai/mcm
pytorch
GitHub 中提及
ali-vilab/VGen
pytorch
GitHub 中提及
ali-vilab/i2vgen-xl
pytorch
GitHub 中提及
picsart-ai-research/streamingt2v
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-video-generation-on-msr-vtt | ModelScopeT2V | CLIPSIM: 0.2930 FID: 11.09 FVD: 550 |