3 个月前

一种通过无文本视频实现文本到视频生成大规模扩展的方案

一种通过无文本视频实现文本到视频生成大规模扩展的方案

摘要

基于扩散模型的文本到视频生成在过去一年中取得了显著进展,但仍落后于文本到图像生成。其中一个关键原因在于公开可用数据集规模有限(例如,WebVid10M仅包含约1000万对视频-文本数据,而LAION则拥有约50亿对图像-文本数据),这主要是由于视频字幕标注成本高昂。相比之下,从YouTube等视频平台直接收集未标注的视频片段则要容易得多。受此启发,我们提出了一种新颖的文本到视频生成框架——TF-T2V,该框架能够直接利用无文本标注的视频进行学习。其核心思想在于将文本解码过程与时间建模过程分离。为此,我们设计了内容分支(content branch)与运动分支(motion branch),二者通过共享权重进行联合优化。基于这一架构,我们研究了将训练数据规模扩大一倍(即使用仅包含视频的WebVid10M数据集,并额外加入随机收集的无文本视频)所带来的影响,结果令人鼓舞:生成质量显著提升(FID从9.67降至8.19,FVD从484降至441),充分证明了该方法具有良好的可扩展性。此外,我们还发现,当在后续训练中重新引入部分带文本标签的数据时,模型性能仍能持续提升(FID从8.19进一步降至7.64,FVD从441降至366)。最后,我们在原生文本到视频生成与组合式视频合成两种范式下,验证了该方法的有效性与泛化能力。相关代码与模型将公开发布于 https://tf-t2v.github.io/。

代码仓库

基准测试

基准方法指标
text-to-video-generation-on-msr-vttTF-T2V
CLIPSIM: 0.2991
FID: 8.19
FVD: 441

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种通过无文本视频实现文本到视频生成大规模扩展的方案 | 论文 | HyperAI超神经