3 个月前

MagDiff:用于高保真视频生成与编辑的多对齐扩散模型

MagDiff:用于高保真视频生成与编辑的多对齐扩散模型

摘要

扩散模型在视频生成与视频编辑任务中得到了广泛应用。由于这两个领域各自面临特定的任务挑战,仅依靠单一扩散模型难以同时高效完成两项任务。尽管当前基于文本提示的视频扩散模型在一定程度上具备统一两项任务的潜力,但其在对齐文本与图像等异构模态方面能力有限,容易引发多种模态错位问题。为此,本文首次提出一种统一的多对齐扩散模型——MagDiff,用于实现高质量视频生成与编辑。所提出的MagDiff引入三种类型的对齐机制:基于主体的对齐、自适应提示对齐以及高保真对齐。其中,基于主体的对齐旨在协调图像与文本提示之间的关系,作为两项任务共用的统一生成基础模型;自适应提示对齐通过为图像与文本提示分配不同的权重,突出同构与异构对齐各自的优势;高保真对齐则通过将主体图像作为额外输入,进一步提升视频生成与编辑的保真度。在四个基准数据集上的实验结果表明,所提方法在各项任务上均显著优于现有方法。

代码仓库

gulucaptain/videoassembler
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-generation-on-msr-vttVideoAssembler (Zero-Shot, 256x256, class-conditional)
FVD16: 252
Inception score: 15.79
video-generation-on-ucf-101VideoAssembler (Zero-shot, 256x256, class-conditional)
FVD16: 346.84
Inception Score: 48.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MagDiff:用于高保真视频生成与编辑的多对齐扩散模型 | 论文 | HyperAI超神经