
摘要
我们研究一项具有挑战性的任务:文本到动作合成(text-to-motion synthesis),旨在生成与文本描述相一致且具备协调性的动作序列。当前,基于部件的方法通过在动作生成过程中引入部件划分,实现了更细粒度的生成效果。然而,这类方法面临诸多挑战,例如不同身体部件动作之间缺乏协调性,以及网络难以理解部件概念的问题。此外,引入更细粒度的部件语义还带来了显著的计算复杂性问题。为此,本文提出一种新型方法——部件协调式文本到动作合成(Part-Coordinating Text-to-Motion Synthesis, ParCo),该方法具备更强的部件动作理解能力以及不同部件生成器之间的协同通信能力,从而确保生成动作在细粒度与协调性方面均达到优良表现。具体而言,我们将全身动作离散化为多个部件动作,以建立对不同身体部件的先验认知。随后,采用多个轻量级生成器分别负责合成不同部件的动作,并通过我们设计的部件协调模块实现各部件之间的有效协同。在主流基准测试集(包括 HumanML3D 和 KIT-ML)上的实验结果表明,所提方法在保持较低计算开销的前提下,取得了显著优于现有方法的性能,充分验证了其有效性。相关代码已开源,地址为:https://github.com/qrzou/ParCo。
代码仓库
qrzou/parco
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| motion-synthesis-on-humanml3d | ParCo | Diversity: 9.576 FID: 0.109 Multimodality: 1.382 R Precision Top3: 0.801 |
| motion-synthesis-on-kit-motion-language | ParCo | Diversity: 10.95 FID: 0.453 Multimodality: 1.245 R Precision Top3: 0.772 |