3 个月前

基于动态感知隐式生成对抗网络的视频生成

基于动态感知隐式生成对抗网络的视频生成

摘要

在深度学习时代,高质量长视频生成仍面临巨大挑战,主要源于视频在时空维度上的复杂性与连续性。现有方法通常将视频建模为RGB值构成的三维网格(3D grid),这种表示方式限制了生成视频的规模,且难以捕捉连续的动态变化。本文发现,近年来兴起的隐式神经表示(Implicit Neural Representations, INRs)——将连续信号编码为参数化神经网络——能够有效缓解上述问题。基于此,我们提出一种面向视频生成的动力学感知隐式生成对抗网络(Dynamics-aware Implicit Generative Adversarial Network, DIGAN),这是一种全新的生成对抗网络框架。具体而言,DIGAN引入了两项关键创新:(a)一种基于INR的视频生成器,通过差异化地操控空间与时间坐标,显著提升运动动态的建模能力;(b)一种运动判别器,能够在不依赖完整长序列帧的情况下,高效识别出不自然的运动模式。实验结果表明,DIGAN在多个数据集上均展现出显著优势,并具备多项令人瞩目的特性,包括长视频合成、视频外推(extrapolation)以及非自回归式视频生成。例如,在UCF-101数据集上,DIGAN将此前最优方法的FVD(Fréchet Video Distance)分数提升了30.7%;同时,该模型可在分辨率为128×128、包含128帧的视频上进行训练,比此前最优方法支持的48帧长出80帧,显著拓展了生成视频的长度上限。

代码仓库

基准测试

基准方法指标
video-generation-on-ucf-101DIGAN (128x128, class-conditional)
FVD16: 465
Inception Score: 59.68
KVD16: 39.6
video-generation-on-ucf-101DIGAN (128x128, unconditional)
FVD16: 577
Inception Score: 32.70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于动态感知隐式生成对抗网络的视频生成 | 论文 | HyperAI超神经