3 个月前

MotionDiffuse:基于扩散模型的文本驱动人体运动生成

MotionDiffuse:基于扩散模型的文本驱动人体运动生成

摘要

人体动作建模在众多现代图形应用中具有重要意义,但传统方法通常需要专业技能支持。为降低非专业人士的使用门槛,近年来涌现出一系列基于自然语言输入直接生成人体动作的方法。然而,如何在多种文本输入下实现多样化且细粒度的动作生成,仍是当前面临的关键挑战。为此,我们提出MotionDiffuse——首个基于扩散模型的文本驱动动作生成框架,相较于现有方法展现出多项优越特性:1)概率化映射:与传统的确定性语言-动作映射不同,MotionDiffuse通过一系列去噪步骤生成动作,过程中引入随机性,从而实现动作的多样生成;2)逼真合成能力:MotionDiffuse擅长建模复杂的数据分布,能够生成生动自然的动作序列;3)多层级可控性:该框架可响应针对身体部位的细粒度指令,并支持基于随时间变化的文本提示进行任意长度的动作合成。 实验结果表明,MotionDiffuse在文本驱动动作生成与动作条件驱动动作生成任务上,均显著优于现有最先进(SoTA)方法。定性分析进一步验证了MotionDiffuse在综合性动作生成中的高度可控性与生成质量。项目主页:https://mingyuan-zhang.github.io/projects/MotionDiffuse.html

代码仓库

viiika/diffusion-conductor
pytorch
GitHub 中提及
mingyuan-zhang/MotionDiffuse
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
motion-synthesis-on-humanml3dMotionDiffuse
Diversity: 9.410
FID: 0.630
Multimodality: 1.553
R Precision Top3: 0.782
motion-synthesis-on-kit-motion-languageMotionDiffuse
Diversity: 11.10
FID: 1.954
Multimodality: 0.730
R Precision Top3: 0.739

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MotionDiffuse:基于扩散模型的文本驱动人体运动生成 | 论文 | HyperAI超神经