3 个月前

VideoPoet:一种用于零样本视频生成的大型语言模型

VideoPoet:一种用于零样本视频生成的大型语言模型

摘要

我们提出 VideoPoet,这是一种能够从多种多样的条件信号中合成高质量视频(含同步音频)的语言模型。VideoPoet 采用仅解码器(decoder-only)的 Transformer 架构,可处理多模态输入,包括图像、视频、文本和音频。其训练流程遵循大型语言模型(LLM)的范式,分为两个阶段:预训练与任务特定微调。在预训练阶段,VideoPoet 在自回归 Transformer 框架中融合了多种多模态生成目标。经过预训练的 LLM 作为基础模型,可进一步适配于多种视频生成任务。我们通过实证研究展示了该模型在零样本视频生成任务中的前沿性能,尤其突显了 VideoPoet 在生成高保真运动效果方面的卓越能力。项目主页:http://sites.research.google/videopoet/

基准测试

基准方法指标
text-to-video-generation-on-msr-vttVideoPoet
CLIPSIM: 0.3123
FVD: 213
text-to-video-generation-on-ucf-101VideoPoet
FVD16: 355
video-generation-on-ucf-101VideoPoet (text-conditional)
FVD16: 355
Inception Score: 38.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoPoet:一种用于零样本视频生成的大型语言模型 | 论文 | HyperAI超神经