
摘要
我们致力于解决从文本描述生成多样化三维人类动作的问题。这一具有挑战性的任务需要对两种模态进行联合建模:一方面,从文本中理解并提取与人类相关的有用信息;另一方面,生成合理且逼真的动作姿态序列。与以往大多数仅关注从文本描述生成单一确定性动作的工作不同,本文提出一种变分方法,能够生成多种多样、具有差异性的三维人类动作。我们提出了 TEMOS——一种基于文本条件的生成模型,该模型结合了基于人类运动数据的变分自编码器(VAE)训练机制,以及一个文本编码器,后者可生成与VAE隐空间相兼容的分布参数。实验表明,TEMOS框架不仅能生成如以往工作所实现的基于骨骼的动画,还能生成更具表现力的SMPL人体运动。我们在KIT Motion-Language基准数据集上对所提方法进行了评估,尽管模型结构相对简洁,但仍显著优于当前最先进的方法。相关代码与模型已发布于我们的项目主页。
代码仓库
Mathux/TEMOS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| motion-synthesis-on-inter-x | TEMOS | FID: 29.258 MMDist: 6.867 MModality: 0.672 R-Precision Top3: 0.238 |
| motion-synthesis-on-interhuman | TEMOS | FID: 17.375 MMDist: 6.342 MModality: 0.535 R-Precision Top3: 0.450 |