3 个月前

ModelScope 文本生成视频技术报告

ModelScope 文本生成视频技术报告

摘要

本文介绍了ModelScopeT2V,一种从文本到图像生成模型(即Stable Diffusion)演进而来的文本到视频合成模型。ModelScopeT2V引入了时空块(spatio-temporal blocks),以确保视频帧生成的一致性以及运动过渡的流畅性。该模型在训练与推理阶段均可适应不同数量的帧,因而适用于图像-文本与视频-文本两类数据集。ModelScopeT2V整合了三个核心组件:VQGAN、文本编码器(text encoder)以及去噪UNet,整体参数量达17亿,其中5亿参数专门用于建模时间维度能力。在三项评估指标上,ModelScopeT2V均展现出优于当前先进方法的性能表现。相关代码及在线演示已开放,可通过以下链接访问:\url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}。

代码仓库

exponentialml/text-to-video-finetuning
官方
pytorch
GitHub 中提及
yhZhai/mcm
pytorch
GitHub 中提及
ali-vilab/VGen
pytorch
GitHub 中提及
ali-vilab/i2vgen-xl
pytorch
GitHub 中提及
picsart-ai-research/streamingt2v
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-video-generation-on-msr-vttModelScopeT2V
CLIPSIM: 0.2930
FID: 11.09
FVD: 550

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供