
摘要
人体运动生成是一项长期存在的挑战性任务,因为需要准确建模复杂多样的动态模式。现有的大多数方法采用如循环神经网络(RNN)等序列模型,直接在原始动作空间中建模状态转换。由于高维度和潜在噪声的影响,这种动作状态转换的建模尤为困难。本文专注于基于骨架的动作生成,并提出在低维的动作序列隐空间中建模平滑且多样的状态转换。给定一个隐序列,所有隐动作姿态共享的帧级解码器生成动作。具体而言,定义了一个隐式RNN来建模平滑的隐序列,其随机性(多样性)由输入中的噪声控制。与标准的动作预测方法不同,我们的模型可以从纯噪声中生成动作序列,而无需任何条件动作姿态。值得注意的是,在训练过程中,该模型还可以从混合类别中生成未见过的动作。我们的模型通过双向生成对抗网络框架进行学习,不仅能够生成特定类别的多样化动作序列或混合类别的动作序列,还学会了在同一模型内对动作序列进行分类。实验结果表明,我们的方法在多样化动作序列生成和分类方面均优于现有方法。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-action-generation-on-human3-6m | Learning Diverse Stochastic Human-Action Generators by Learning Smooth Latent Transitions | MMDa: 0.195 MMDs: 0.218 |
| human-action-generation-on-ntu-rgb-d-2d | c-SkeletonGAN | MMDa (CS): 0.338 MMDa (CV): 0.371 MMDs (CS): 0.402 MMDs (CV): 0.398 |