
摘要
近年来,对抗性生成建模领域的最新突破使得模型能够生成高质量的视频样本,即使在大规模、复杂的现实世界视频数据集上亦可实现。在本研究中,我们聚焦于视频预测任务:给定一段从视频中提取的帧序列,目标是生成一个合理且连贯的未来帧序列。首先,我们通过系统性的实验研究对判别器结构进行分解,并提出一种新型网络架构,该架构在收敛速度和性能表现上均优于以往方法,显著提升了当前技术水平。随后,我们深入分析生成器中的循环单元结构,并提出一种新颖的循环单元设计:该单元根据预测的运动特征对历史隐藏状态进行变换,并进一步优化以有效处理遮挡、场景变化及其他复杂动态行为。实验结果表明,该循环单元在各项指标上均持续优于先前的设计。最终,我们的模型在大规模Kinetics-600数据集上实现了显著的性能跃升,将测试集的Fréchet视频距离(Fréchet Video Distance)从69.2降低至25.7,标志着视频预测领域的新里程碑。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | TrIVD-GAN-FP | Cond: 1 FVD score: 103.3 Pred: 15 Train: 15 |
| video-prediction-on-kinetics-600-12-frames | TriVD-GAN-FP | Cond: 5 FVD: 25.74±0.66 IS: 12.54±0.06 Pred: 11 |