17 天前

深度视频生成、人类动作序列的预测与补全

深度视频生成、人类动作序列的预测与补全

摘要

当前,视频生成领域的深度学习研究结果仍较为有限,视频预测方面仅有少量初步成果,而视频补全方面则尚无相关显著进展。这主要源于上述三类问题固有的严重病态性。本文聚焦于人体动作视频,提出一种通用的两阶段深度学习框架,可在无约束或任意数量约束条件下生成人体动作视频,统一解决三类问题:在无输入帧情况下生成视频、在仅给定前几帧时进行视频预测,以及在给定首尾帧时完成视频补全。为使问题可解,在第一阶段,我们训练一个深度生成模型,从随机噪声中生成人体姿态序列;在第二阶段,训练一个骨骼到图像的网络,用于根据第一阶段生成的完整人体姿态序列生成人体动作视频。通过引入两阶段策略,我们有效规避了原始病态问题,首次实现了时长更长、质量更高的视频生成、预测与补全结果。我们通过定量与定性评估表明,所提两阶段方法在视频生成、预测及补全任务上均优于现有最先进方法。视频生成效果演示可访问:https://iamacewhite.github.io/supp/index.html

基准测试

基准方法指标
human-action-generation-on-human3-6mDeep Video Generation, Prediction and Completion of Human Action Sequences
MMDa: 0.419
MMDs: 0.436
human-action-generation-on-ntu-rgb-d-2dSkeletonGAN
MMDa (CS): 0.698
MMDa (CV): 0.999
MMDs (CS): 0.788
MMDs (CV): 1.311

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
深度视频生成、人类动作序列的预测与补全 | 论文 | HyperAI超神经