3 个月前

扩散运动:通过扩散模型生成文本引导的3D人体运动

扩散运动:通过扩散模型生成文本引导的3D人体运动

摘要

我们提出了一种简单而新颖的方法,用于从复杂的自然语言句子中生成三维人体运动,这些句子描述了各类动作在速度、方向及组合上的多样性。与现有采用经典生成架构的方法不同,我们首次将去噪扩散概率模型(Denoising Diffusion Probabilistic Model)应用于该任务,在文本引导下合成多样化的人体运动结果。该扩散模型通过一系列去噪步骤,借助马尔可夫过程将白噪声逐步转化为具有结构的三维运动,并通过优化变分下界实现高效训练。为实现文本条件下的图像生成目标,我们在训练过程中采用无分类器引导(classifier-free guidance)策略,将文本嵌入有效融合进模型。实验结果表明,我们的模型在HumanML3D测试集上取得了具有竞争力的定量性能,能够生成更具视觉自然性和多样性的运动样本。此外,通过实验进一步验证了该模型具备对未见文本指令进行零样本运动生成的能力。

基准测试

基准方法指标
motion-synthesis-on-humanml3dDiffuion Motion
Diversity: 23.692
FID: 10.21
R Precision Top3: 0.735

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
扩散运动:通过扩散模型生成文本引导的3D人体运动 | 论文 | HyperAI超神经