3 个月前

ModelScope 文本生成视频技术报告

Jiuniu Wang Hangjie Yuan Dayou Chen Yingya Zhang Xiang Wang Shiwei Zhang

摘要

本文介绍了ModelScopeT2V，一种从文本到图像生成模型（即Stable Diffusion）演进而来的文本到视频合成模型。ModelScopeT2V引入了时空块（spatio-temporal blocks），以确保视频帧生成的一致性以及运动过渡的流畅性。该模型在训练与推理阶段均可适应不同数量的帧，因而适用于图像-文本与视频-文本两类数据集。ModelScopeT2V整合了三个核心组件：VQGAN、文本编码器（text encoder）以及去噪UNet，整体参数量达17亿，其中5亿参数专门用于建模时间维度能力。在三项评估指标上，ModelScopeT2V均展现出优于当前先进方法的性能表现。相关代码及在线演示已开放，可通过以下链接访问：\url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}。