Haoxin ChenMenghan XiaYingqing HeYong ZhangXiaodong CunShaoshu YangJinbo XingYaofang LiuQifeng ChenXintao WangChao WengYing Shan

摘要
视频生成在学术界与工业界日益受到关注。尽管现有的商业工具能够生成具有一定真实感的视频,但可供研究人员和工程师使用的开源模型仍十分有限。本文提出两种用于高质量视频生成的扩散模型,分别为文本到视频(Text-to-Video, T2V)模型与图像到视频(Image-to-Video, I2V)模型。T2V模型根据给定的文本输入生成视频,而I2V模型则引入额外的图像输入以指导生成过程。我们提出的T2V模型能够生成分辨率为 $1024 \times 576$ 的逼真且具有电影级质量的视频,在生成质量上超越了现有其他开源T2V模型。I2V模型旨在生成严格遵循参考图像内容的视频,有效保留原始图像的语义内容、结构布局与视觉风格。该模型是首个能够将给定图像转化为视频片段的同时满足内容保真约束的开源I2V基础模型。我们相信,这些开源视频生成模型将对社区内的技术进步产生重要推动作用。
代码仓库
invictus717/interactivevideo
pytorch
GitHub 中提及
ailab-cvc/videocrafter
官方
pytorch
GitHub 中提及
videocrafter/videocrafter
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-video-generation-on-evalcrafter-text | VideoCrafter1 | Motion Quality: 60.85 Temporal Consistency: 55.89 Text-to-Video Alignment: 61.95 Total Score: 232 Visual Quality: 53.08 |