
摘要
受视觉和语言之间紧密联系的启发,这两种人类感知和交流模式,本文旨在探索从文本生成3D人体全身动作及其逆向任务,即分别简称为文本到动作(text2motion)和动作到文本(motion2text)。为了应对现有挑战,特别是实现从同一文本生成多个不同的动作,以及避免产生无意义的静止姿态序列,我们提出使用运动标记(motion token),这是一种离散且紧凑的动作表示方法。这为考虑动作和文本信号提供了一个公平的竞争环境,因为它们分别被表示为运动标记和文本标记。此外,我们的动作到文本模块被整合到文本到动作训练流程的逆向对齐过程中,在此过程中,如果合成的文本与输入文本有显著偏差,则会受到较大的训练损失;实验证明这种方法可以有效提高性能。最后,通过将机器翻译(NMT)神经模型适应于我们的场景,促进了动作和文本两种模态之间的映射。这种对离散运动标记分布的自回归建模进一步实现了从输入文本生成长度可变的非确定性姿态序列。我们的方法具有灵活性,既可用于文本到动作任务,也可用于动作到文本任务。在两个基准数据集上的实证评估表明,我们的方法在这两项任务上均优于多种最先进的方法。项目页面:https://ericguo5513.github.io/TM2T/
代码仓库
EricGuo5513/TM2T
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| motion-captioning-on-humanml3d | TM2T | BERTScore: 37.8 BLEU-4: 22.3 |
| motion-captioning-on-kit-motion-language | TM2T | BERTScore: 23.0 BLEU-4: 18.4 |
| motion-synthesis-on-humanml3d | TM2T | Diversity: 8.589 FID: 1.501 Multimodality: 2.424 R Precision Top3: 0.729 |
| motion-synthesis-on-humanml3d | Text2Gesture | Diversity: 6.409 FID: 5.012 R Precision Top3: 0.345 |
| motion-synthesis-on-humanml3d | Language2Pose | Diversity: 7.676 FID: 11.02 R Precision Top3: 0.486 |
| motion-synthesis-on-kit-motion-language | Text2Gesture | Diversity: 9.334 FID: 12.12 R Precision Top3: 0.338 |
| motion-synthesis-on-kit-motion-language | TM2T | Diversity: 9.473 FID: 3.599 Multimodality: 3.292 R Precision Top3: 0.587 |
| motion-synthesis-on-kit-motion-language | Language2Pose | Diversity: 9.073 FID: 6.545 R Precision Top3: 0.483 |