3 个月前

人类运动扩散作为生成先验

人类运动扩散作为生成先验

摘要

近期研究已证明去噪扩散模型在生成人体运动方面具有巨大潜力,包括实现文本到动作的生成能力。然而,现有方法受限于标注运动数据的稀缺性、仅聚焦于单人动作生成,以及缺乏精细控制能力。本文提出三种基于扩散先验的组合方式:顺序组合、并行组合与模型组合。通过顺序组合,我们解决了长序列动作生成的挑战。为此,我们提出DoubleTake——一种推理阶段的方法,仅依赖于仅针对短片段训练的先验模型,即可生成由多个提示区间及其过渡过程构成的长时序动画。通过并行组合,我们朝着双人动作生成迈出了有前景的一步。在两个固定先验模型的基础上,结合少量双人动作训练样本,我们设计了一个轻量级通信模块ComMDM,用于协调两个生成动作之间的交互行为。最后,通过模型组合,我们首先分别训练多个独立的先验模型,使其能够完成特定关节所要求的动作。随后,我们提出DiffusionBlending——一种插值机制,可有效融合多个此类模型,从而实现灵活且高效的细粒度关节级与轨迹级控制与编辑。我们在一个现成的运动扩散模型上评估了上述组合方法,并进一步将其结果与专门针对这些任务训练的定制化模型进行了对比,验证了所提方法的有效性与优越性。

代码仓库

zhenzhiwang/intercontrol
pytorch
GitHub 中提及
priormdm/priormdm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
motion-synthesis-on-inter-xComMDM
FID: 29.266
MMDist: 6.870
MModality: 0.771
R-Precision Top3: 0.236
motion-synthesis-on-interhumanComMDM
FID: 7.069
MMDist: 6.212
MModality: 1.822
R-Precision Top3: 0.466

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
人类运动扩散作为生成先验 | 论文 | HyperAI超神经