
摘要
在计算机视觉领域,基于文本的人体动作生成具有重要意义,同时也面临严峻挑战。然而,现有方法通常仅能生成确定性或模糊的动作序列,难以有效控制动作在时间与空间上的关系,以精确匹配给定的文本描述。为此,本文提出一种细粒度的人体动作生成方法,能够生成高质量、条件可控的动作序列,并支持对文本描述的精确建模。本方法包含两个核心组件:1)基于语言结构的辅助模块,用于构建准确且完整的语言特征,充分挖掘文本信息;2)上下文感知的渐进式推理模块,通过浅层与深层图神经网络分别学习局部与全局的语义语言特征,实现多阶段推理。实验结果表明,所提方法在HumanML3D和KIT测试集上均优于现有的文本驱动动作生成方法,生成的动作在视觉上与文本条件具有更强的一致性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| motion-synthesis-on-humanml3d | Fg-T2M | Diversity: 9.278 FID: 0.243 Multimodality: 1.614 R Precision Top3: 0.783 |
| motion-synthesis-on-kit-motion-language | Fg-T2M | Diversity: 10.93 FID: 0.571 Multimodality: 1.019 R Precision Top3: 0.745 |