6 个月前

统一多模态

Uriel Singer Adam Polyak Thomas Hayes Xi Yin Jie An Songyang Zhang Qiyuan Hu Harry Yang Oron Ashual Oran Gafni

摘要

我们提出 Make-A-Video——一种将文本到图像（Text-to-Image, T2I）生成领域近期取得的显著进展直接迁移至文本到视频（Text-to-Video, T2V）生成的新方法。其核心思想简单而有效：通过成对的文本-图像数据学习世界外观及其描述方式，再通过无监督的视频数据学习世界运动规律。Make-A-Video 具备三大优势：（1）显著加速 T2V 模型的训练过程（无需从零学习视觉与多模态表示）；（2）无需依赖成对的文本-视频数据；（3）生成的视频继承了当前图像生成模型所具备的广阔多样性，包括丰富的美学风格与奇幻视觉表现。我们设计了一种简洁而高效的方法，基于现有的 T2I 模型，引入新颖且有效的时空模块。首先，我们将完整的时序 U-Net 与注意力张量进行时空分解，并在空间与时间维度上分别进行近似处理；其次，我们构建了一个时空流水线，结合视频解码器、插值模型以及两个超分辨率模型，实现高分辨率、高帧率视频的生成，该架构不仅适用于 T2V 任务，还可拓展至多种其他应用。在空间与时间分辨率、文本忠实度以及生成质量等多个维度上，Make-A-Video 均通过定性与定量评估，达到了文本到视频生成领域的最新技术水平，树立了新的标杆。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

Uriel Singer Adam Polyak Thomas Hayes Xi Yin Jie An Songyang Zhang Qiyuan Hu Harry Yang Oron Ashual Oran Gafni

摘要

我们提出 Make-A-Video——一种将文本到图像（Text-to-Image, T2I）生成领域近期取得的显著进展直接迁移至文本到视频（Text-to-Video, T2V）生成的新方法。其核心思想简单而有效：通过成对的文本-图像数据学习世界外观及其描述方式，再通过无监督的视频数据学习世界运动规律。Make-A-Video 具备三大优势：（1）显著加速 T2V 模型的训练过程（无需从零学习视觉与多模态表示）；（2）无需依赖成对的文本-视频数据；（3）生成的视频继承了当前图像生成模型所具备的广阔多样性，包括丰富的美学风格与奇幻视觉表现。我们设计了一种简洁而高效的方法，基于现有的 T2I 模型，引入新颖且有效的时空模块。首先，我们将完整的时序 U-Net 与注意力张量进行时空分解，并在空间与时间维度上分别进行近似处理；其次，我们构建了一个时空流水线，结合视频解码器、插值模型以及两个超分辨率模型，实现高分辨率、高帧率视频的生成，该架构不仅适用于 T2V 任务，还可拓展至多种其他应用。在空间与时间分辨率、文本忠实度以及生成质量等多个维度上，Make-A-Video 均通过定性与定量评估，达到了文本到视频生成领域的最新技术水平，树立了新的标杆。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供