
摘要
一种能够描述人类运动的深度生成模型,可为众多基础性计算机视觉与图形学任务带来显著益处,例如提升基于视频的人体姿态估计的鲁棒性、在遮挡情况下预测动作捕捉系统中完整的身体运动,以及通过生成合理运动来辅助关键帧动画。本文提出了一种基于全局与局部联合隐空间的通用方法,用于学习与具体任务无关的复杂人类运动,从而实现粗粒度与细粒度的运动建模。具体而言,我们提出了一种分层运动变分自编码器(Hierarchical Motion Variational Autoencoder, HM-VAE),其包含两级分层隐空间结构:全局隐空间用于捕捉整体身体运动特征,局部隐空间则用于建模各身体部位的精细姿态变化。我们在多项任务中验证了所提HM-VAE的有效性,包括基于视频的人体姿态估计、从部分观测中完成缺失动作,以及从稀疏关键帧生成完整运动序列。值得注意的是,尽管本模型并未针对上述任一任务进行专门训练,其性能仍显著优于各类任务专用模型。该通用型人体运动先验模型能够修复受损的人体动画,并从不完整观测中生成完整的运动序列。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| motion-synthesis-on-lafan1 | HM-VAE | L2Q@15: 0.54 L2Q@30: 0.94 L2Q@5: 0.24 |