HyperAI超神经

摘要

我们提出 VideoPoet，这是一种能够从多种多样的条件信号中合成高质量视频（含同步音频）的语言模型。VideoPoet 采用仅解码器（decoder-only）的 Transformer 架构，可处理多模态输入，包括图像、视频、文本和音频。其训练流程遵循大型语言模型（LLM）的范式，分为两个阶段：预训练与任务特定微调。在预训练阶段，VideoPoet 在自回归 Transformer 框架中融合了多种多模态生成目标。经过预训练的 LLM 作为基础模型，可进一步适配于多种视频生成任务。我们通过实证研究展示了该模型在零样本视频生成任务中的前沿性能，尤其突显了 VideoPoet 在生成高保真运动效果方面的卓越能力。项目主页：http://sites.research.google/videopoet/

摘要

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu

摘要

用 AI 构建 AI

HyperAI Newsletters

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu

摘要

用 AI 构建 AI

HyperAI Newsletters

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VideoPoet：一种用于零样本视频生成的大型语言模型

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu21 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VideoPoet：一种用于零样本视频生成的大型语言模型

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu21 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VideoPoet：一种用于零样本视频生成的大型语言模型

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu21 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu

Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang Grant Schindler Rachel Hornung Vighnesh Birodkar Jimmy Yan Ming-Chang Chiu