
摘要
当前,视频生成领域的深度学习研究结果仍较为有限,视频预测方面仅有少量初步成果,而视频补全方面则尚无相关显著进展。这主要源于上述三类问题固有的严重病态性。本文聚焦于人体动作视频,提出一种通用的两阶段深度学习框架,可在无约束或任意数量约束条件下生成人体动作视频,统一解决三类问题:在无输入帧情况下生成视频、在仅给定前几帧时进行视频预测,以及在给定首尾帧时完成视频补全。为使问题可解,在第一阶段,我们训练一个深度生成模型,从随机噪声中生成人体姿态序列;在第二阶段,训练一个骨骼到图像的网络,用于根据第一阶段生成的完整人体姿态序列生成人体动作视频。通过引入两阶段策略,我们有效规避了原始病态问题,首次实现了时长更长、质量更高的视频生成、预测与补全结果。我们通过定量与定性评估表明,所提两阶段方法在视频生成、预测及补全任务上均优于现有最先进方法。视频生成效果演示可访问:https://iamacewhite.github.io/supp/index.html
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-action-generation-on-human3-6m | Deep Video Generation, Prediction and Completion of Human Action Sequences | MMDa: 0.419 MMDs: 0.436 |
| human-action-generation-on-ntu-rgb-d-2d | SkeletonGAN | MMDa (CS): 0.698 MMDa (CV): 0.999 MMDs (CS): 0.788 MMDs (CV): 1.311 |