
摘要
自然且富有表现力的人体运动生成是计算机动画领域的终极目标。这一任务极具挑战性,原因在于运动形式的多样性、人类对运动细节的高度感知敏感性,以及准确描述运动本身的困难。因此,当前的生成方法要么质量较低,要么在表现力上存在局限。扩散模型(diffusion models)在其他领域已展现出卓越的生成能力,因其具备“多对多”的生成特性,被视为人体运动生成的有力候选方案。然而,这类模型通常资源消耗大,且难以精确控制。本文提出了一种名为运动扩散模型(Motion Diffusion Model, MDM)的生成模型,该模型基于分类器自由的扩散框架,并针对人体运动领域进行了精心调整。MDM采用Transformer架构,融合了运动生成领域的重要研究成果。一个关键的设计选择是在每一步扩散过程中预测运动样本本身,而非噪声。这一设计使得能够有效引入成熟的几何损失函数,例如对运动中足部接触位置与速度的约束损失。我们证明,MDM是一种通用性强的生成框架,支持多种条件输入方式和不同的生成任务。实验表明,尽管训练过程仅需轻量级计算资源,MDM在主流文本到运动(text-to-motion)和动作到运动(action-to-motion)基准测试中均取得了当前最优的性能表现。相关项目页面见:https://guytevet.github.io/mdm-page/。
代码仓库
guytevet/motion-diffusion-model
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-generation-on-e-t-the-exceptional | MDM | ClaTr-Score: 18.32 Classifier-F1: 0.34 FD_ClaTr: 6.79 |
| motion-synthesis-on-humanact12 | MDM | Accuracy: 0.99 FID: 0.08 Multimodality: 2.58 |
| motion-synthesis-on-humanml3d | MDM | Diversity: 9.559 FID: 0.544 Multimodality: 2.799 R Precision Top3: 0.611 |
| motion-synthesis-on-inter-x | MDM | FID: 23.701 MMDist: 9.548 MModality: 3.490 R-Precision Top3: 0.426 |
| motion-synthesis-on-interhuman | MDM | FID: 9.167 MMDist: 7.125 MModality: 2.35 R-Precision Top3: 0.339 |
| motion-synthesis-on-kit-motion-language | MDM | Diversity: 10.847 FID: 0.497 Multimodality: 1.907 R Precision Top3: 0.396 |
| motion-synthesis-on-motion-x | MDM | Diversity: 11.400 FID: 3.800 MModality: 2.530 TMR-Matching Score: 0.840 TMR-R-Precision Top3: 0.6341 |