4 个月前

复杂数据集上的对抗视频生成

复杂数据集上的对抗视频生成

摘要

生成自然图像的模型通过充分利用规模取得了高保真样本的进展。我们试图将这一成功推广到视频建模领域,通过展示在复杂的Kinetics-600数据集上训练的大规模生成对抗网络(Generative Adversarial Networks, GAN)能够生成比以往工作复杂度和保真度显著更高的视频样本。我们提出的模型——双视频判别器GAN(Dual Video Discriminator GAN, DVD-GAN)——通过利用其判别器的计算高效分解,扩展到了更长和更高分辨率的视频。我们在视频合成和视频预测相关任务上进行了评估,并在Kinetics-600数据集的预测任务中达到了新的Fréchet inception距离(FID)最佳成绩,同时在UCF-101数据集的合成任务中也取得了最佳的Inception分数,并为Kinetics-600数据集的合成任务建立了强大的基线。

代码仓库

Harrypotterrrr/DVD-GAN
pytorch
GitHub 中提及

基准测试

基准方法指标
video-generation-on-bair-robot-pushingDVD-GAN-FP
Cond: 1
FVD score: 109.8
Pred: 15
Train: 15
video-generation-on-kinetics-600-12-framesDVD-GAN
FVD: 31.1
video-generation-on-kinetics-600-12-frames-1DVD-GAN
FID: 2.16
video-generation-on-kinetics-600-48-framesDVD-GAN
FID: 12.92
Inception Score: 219.05
video-prediction-on-bair-robot-pushing-1DVD-GAN-FP
FVD: 109.8
video-prediction-on-kinetics-600-12-framesDVD-GAN-FP
Cond: 5
FVD: 69.15±0.78
Pred: 11

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供