3 个月前

VideoCrafter1:面向高质量视频生成的开放扩散模型

VideoCrafter1:面向高质量视频生成的开放扩散模型

摘要

视频生成在学术界与工业界日益受到关注。尽管现有的商业工具能够生成具有一定真实感的视频,但可供研究人员和工程师使用的开源模型仍十分有限。本文提出两种用于高质量视频生成的扩散模型,分别为文本到视频(Text-to-Video, T2V)模型与图像到视频(Image-to-Video, I2V)模型。T2V模型根据给定的文本输入生成视频,而I2V模型则引入额外的图像输入以指导生成过程。我们提出的T2V模型能够生成分辨率为 $1024 \times 576$ 的逼真且具有电影级质量的视频,在生成质量上超越了现有其他开源T2V模型。I2V模型旨在生成严格遵循参考图像内容的视频,有效保留原始图像的语义内容、结构布局与视觉风格。该模型是首个能够将给定图像转化为视频片段的同时满足内容保真约束的开源I2V基础模型。我们相信,这些开源视频生成模型将对社区内的技术进步产生重要推动作用。

代码仓库

invictus717/interactivevideo
pytorch
GitHub 中提及
ailab-cvc/videocrafter
官方
pytorch
GitHub 中提及
videocrafter/videocrafter
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-video-generation-on-evalcrafter-textVideoCrafter1
Motion Quality: 60.85
Temporal Consistency: 55.89
Text-to-Video Alignment: 61.95
Total Score: 232
Visual Quality: 53.08

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoCrafter1:面向高质量视频生成的开放扩散模型 | 论文 | HyperAI超神经