
摘要
在视频数据集上训练生成对抗网络(GAN)是一项挑战,因为数据集的规模庞大且每个观测值的复杂度较高。通常情况下,训练GAN的计算成本会随着分辨率的提高而呈指数级增长。在本研究中,我们提出了一种新颖的、内存高效的无监督学习方法,该方法在高分辨率视频数据集上的计算成本仅随分辨率线性增长。我们通过设计生成器模型为一系列小型子生成器堆叠,并以特定方式进行训练来实现这一目标。我们在训练过程中为每个子生成器配备了一个专门的判别器。同时,在每对连续的子生成器之间引入了一个辅助下采样层,该层以一定的比例降低帧率。这一过程使得每个子生成器能够在不同分辨率级别上学习视频的分布情况。此外,我们只需要少量的GPU即可训练一个高度复杂的生成器,其性能在Inception分数方面远超前代模型。
代码仓库
pfnet-research/tgan2
官方
GitHub 中提及
Zasder3/Tganv2-PyTorch-Train-Sparsely--Generate-Densely
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-ucf-101-16-frames | TGANv2 | Inception Score: 21.45 |
| video-generation-on-ucf-101-16-frames-128x128 | TGANv2 | Inception Score: 24.34 |
| video-generation-on-ucf-101-16-frames-128x128 | TGANv2 (2020) | Inception Score: 28.87 |