4 个月前

TM2T:用于3D人体运动和文本互动生成的随机化和令牌化建模

TM2T:用于3D人体运动和文本互动生成的随机化和令牌化建模

摘要

受视觉和语言之间紧密联系的启发,这两种人类感知和交流模式,本文旨在探索从文本生成3D人体全身动作及其逆向任务,即分别简称为文本到动作(text2motion)和动作到文本(motion2text)。为了应对现有挑战,特别是实现从同一文本生成多个不同的动作,以及避免产生无意义的静止姿态序列,我们提出使用运动标记(motion token),这是一种离散且紧凑的动作表示方法。这为考虑动作和文本信号提供了一个公平的竞争环境,因为它们分别被表示为运动标记和文本标记。此外,我们的动作到文本模块被整合到文本到动作训练流程的逆向对齐过程中,在此过程中,如果合成的文本与输入文本有显著偏差,则会受到较大的训练损失;实验证明这种方法可以有效提高性能。最后,通过将机器翻译(NMT)神经模型适应于我们的场景,促进了动作和文本两种模态之间的映射。这种对离散运动标记分布的自回归建模进一步实现了从输入文本生成长度可变的非确定性姿态序列。我们的方法具有灵活性,既可用于文本到动作任务,也可用于动作到文本任务。在两个基准数据集上的实证评估表明,我们的方法在这两项任务上均优于多种最先进的方法。项目页面:https://ericguo5513.github.io/TM2T/

代码仓库

EricGuo5513/TM2T
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
motion-captioning-on-humanml3dTM2T
BERTScore: 37.8
BLEU-4: 22.3
motion-captioning-on-kit-motion-languageTM2T
BERTScore: 23.0
BLEU-4: 18.4
motion-synthesis-on-humanml3dTM2T
Diversity: 8.589
FID: 1.501
Multimodality: 2.424
R Precision Top3: 0.729
motion-synthesis-on-humanml3dText2Gesture
Diversity: 6.409
FID: 5.012
R Precision Top3: 0.345
motion-synthesis-on-humanml3dLanguage2Pose
Diversity: 7.676
FID: 11.02
R Precision Top3: 0.486
motion-synthesis-on-kit-motion-languageText2Gesture
Diversity: 9.334
FID: 12.12
R Precision Top3: 0.338
motion-synthesis-on-kit-motion-languageTM2T
Diversity: 9.473
FID: 3.599
Multimodality: 3.292
R Precision Top3: 0.587
motion-synthesis-on-kit-motion-languageLanguage2Pose
Diversity: 9.073
FID: 6.545
R Precision Top3: 0.483

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TM2T:用于3D人体运动和文本互动生成的随机化和令牌化建模 | 论文 | HyperAI超神经