3 个月前

人类运动扩散模型

人类运动扩散模型

摘要

自然且富有表现力的人体运动生成是计算机动画领域的终极目标。这一任务极具挑战性,原因在于运动形式的多样性、人类对运动细节的高度感知敏感性,以及准确描述运动本身的困难。因此,当前的生成方法要么质量较低,要么在表现力上存在局限。扩散模型(diffusion models)在其他领域已展现出卓越的生成能力,因其具备“多对多”的生成特性,被视为人体运动生成的有力候选方案。然而,这类模型通常资源消耗大,且难以精确控制。本文提出了一种名为运动扩散模型(Motion Diffusion Model, MDM)的生成模型,该模型基于分类器自由的扩散框架,并针对人体运动领域进行了精心调整。MDM采用Transformer架构,融合了运动生成领域的重要研究成果。一个关键的设计选择是在每一步扩散过程中预测运动样本本身,而非噪声。这一设计使得能够有效引入成熟的几何损失函数,例如对运动中足部接触位置与速度的约束损失。我们证明,MDM是一种通用性强的生成框架,支持多种条件输入方式和不同的生成任务。实验表明,尽管训练过程仅需轻量级计算资源,MDM在主流文本到运动(text-to-motion)和动作到运动(action-to-motion)基准测试中均取得了当前最优的性能表现。相关项目页面见:https://guytevet.github.io/mdm-page/。

代码仓库

guytevet/motion-diffusion-model
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-generation-on-e-t-the-exceptionalMDM
ClaTr-Score: 18.32
Classifier-F1: 0.34
FD_ClaTr: 6.79
motion-synthesis-on-humanact12MDM
Accuracy: 0.99
FID: 0.08
Multimodality: 2.58
motion-synthesis-on-humanml3dMDM
Diversity: 9.559
FID: 0.544
Multimodality: 2.799
R Precision Top3: 0.611
motion-synthesis-on-inter-xMDM
FID: 23.701
MMDist: 9.548
MModality: 3.490
R-Precision Top3: 0.426
motion-synthesis-on-interhumanMDM
FID: 9.167
MMDist: 7.125
MModality: 2.35
R-Precision Top3: 0.339
motion-synthesis-on-kit-motion-languageMDM
Diversity: 10.847
FID: 0.497
Multimodality: 1.907
R Precision Top3: 0.396
motion-synthesis-on-motion-xMDM
Diversity: 11.400
FID: 3.800
MModality: 2.530
TMR-Matching Score: 0.840
TMR-R-Precision Top3: 0.6341

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
人类运动扩散模型 | 论文 | HyperAI超神经