3 个月前

通过潜在空间中的运动扩散执行您的命令

通过潜在空间中的运动扩散执行您的命令

摘要

我们研究了一个具有挑战性的任务——条件化人体运动生成,该任务旨在根据多种条件输入(如动作类别或文本描述)生成符合实际的人体运动序列。由于人体运动本身具有高度多样性,且其分布与条件模态(如自然语言中的文本描述)存在显著差异,因此难以学习从目标条件模态到人体运动序列之间的有效概率映射。此外,来自动作捕捉系统的原始运动数据往往在时间序列上存在冗余,并包含噪声;若直接对原始运动序列与条件模态的联合分布进行建模,将带来巨大的计算开销,并可能因捕捉噪声引入生成伪影。为学习更优的人体运动序列表示,我们首先设计了一种强大的变分自编码器(Variational AutoEncoder, VAE),从而为每段人体运动序列获得一个具有代表性且维度较低的潜在编码。随后,我们并未采用扩散模型直接建立原始运动序列与条件输入之间的关联,而是将扩散过程引入运动潜在空间中。我们提出的基于运动潜在空间的扩散模型(Motion Latent-based Diffusion model, MLD)能够生成符合给定条件输入的生动自然的运动序列,同时在训练与推理阶段均显著降低了计算开销。在多种人体运动生成任务上的大量实验表明,我们的MLD在性能上显著优于现有最先进方法,且在原始运动序列上的运行速度比以往的扩散模型快两个数量级。

代码仓库

chenfengye/motion-latent-diffusion
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
motion-synthesis-on-humanact12MLD
Accuracy: 0.964
FID: 0.077
Multimodality: 2.824
motion-synthesis-on-humanml3dMLD
Diversity: 9.724
FID: 0.473
Multimodality: 2.413
R Precision Top3: 0.772
motion-synthesis-on-kit-motion-languageTEMOS
Diversity: 10.84
FID: 3.717
Multimodality: 0.532
R Precision Top3: 0.687
motion-synthesis-on-kit-motion-languageMLD
Diversity: 10.80
FID: 0.404
Multimodality: 2.192
R Precision Top3: 0.734
motion-synthesis-on-motion-xMLD
Diversity: 10.420
FID: 3.407
MModality: 2.448
TMR-Matching Score: 0.883
TMR-R-Precision Top3: 0.683

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过潜在空间中的运动扩散执行您的命令 | 论文 | HyperAI超神经