3 个月前

ParCo:部件协调的文本到动作生成

ParCo:部件协调的文本到动作生成

摘要

我们研究一项具有挑战性的任务:文本到动作合成(text-to-motion synthesis),旨在生成与文本描述相一致且具备协调性的动作序列。当前,基于部件的方法通过在动作生成过程中引入部件划分,实现了更细粒度的生成效果。然而,这类方法面临诸多挑战,例如不同身体部件动作之间缺乏协调性,以及网络难以理解部件概念的问题。此外,引入更细粒度的部件语义还带来了显著的计算复杂性问题。为此,本文提出一种新型方法——部件协调式文本到动作合成(Part-Coordinating Text-to-Motion Synthesis, ParCo),该方法具备更强的部件动作理解能力以及不同部件生成器之间的协同通信能力,从而确保生成动作在细粒度与协调性方面均达到优良表现。具体而言,我们将全身动作离散化为多个部件动作,以建立对不同身体部件的先验认知。随后,采用多个轻量级生成器分别负责合成不同部件的动作,并通过我们设计的部件协调模块实现各部件之间的有效协同。在主流基准测试集(包括 HumanML3D 和 KIT-ML)上的实验结果表明,所提方法在保持较低计算开销的前提下,取得了显著优于现有方法的性能,充分验证了其有效性。相关代码已开源,地址为:https://github.com/qrzou/ParCo。

代码仓库

qrzou/parco
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
motion-synthesis-on-humanml3dParCo
Diversity: 9.576
FID: 0.109
Multimodality: 1.382
R Precision Top3: 0.801
motion-synthesis-on-kit-motion-languageParCo
Diversity: 10.95
FID: 0.453
Multimodality: 1.245
R Precision Top3: 0.772

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ParCo:部件协调的文本到动作生成 | 论文 | HyperAI超神经