ZhouWenyang ; DouZhiyang ; CaoZeyu ; LiaoZhouyingcheng ; WangJingbo ; WangWenjia ; LiuYuan ; KomuraTaku ; WangWenping ; LiuLingjie

摘要
我们介绍了一种高效的运动扩散模型(Efficient Motion Diffusion Model, EMDM),用于快速生成高质量的人体运动。当前最先进的生成扩散模型已经取得了令人印象深刻的结果,但在不牺牲质量的前提下实现快速生成仍面临挑战。一方面,以往的工作,如运动潜在扩散模型,通过在潜在空间内进行扩散以提高效率,但学习这种潜在空间并非易事。另一方面,通过简单增加采样步长(例如DDIM)来加速生成过程,通常会导致质量下降,因为这种方法无法准确逼近复杂的去噪分布。为了解决这些问题,我们提出了EMDM模型,该模型在扩散过程中捕捉多个采样步骤中的复杂分布,从而允许使用更少的采样步骤并显著加快生成速度。这是通过条件去噪扩散GAN实现的,该GAN能够在任意(且可能更大的)步长条件下捕获多模态数据分布,并结合控制信号实现少步长高保真度和多样性的运动采样。为了最小化不必要的运动伪影,在网络训练过程中引入了几何损失。因此,EMDM实现了实时运动生成,并在保持高质量运动生成的同时显著提高了现有方法中运动扩散模型的效率。我们的代码将在论文发表后公开发布。
代码仓库
frank-zy-dou/emdm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| motion-synthesis-on-humanml3d | EMDM | Diversity: 9.551 FID: 0.112 Multimodality: 1.641 R Precision Top3: 0.786 |
| motion-synthesis-on-kit-motion-language | EMDM | Diversity: 10.96 FID: 0.261 Multimodality: 1.343 R Precision Top3: 0.780 |