3 个月前

从文本生成多样且自然的3D人体运动

从文本生成多样且自然的3D人体运动

摘要

从文本自动生成三维人体动作是一项具有挑战性的任务。生成的动作不仅需要在文本所限定的动作空间中具备充分的多样性,更重要的是要准确地反映给定文本描述的内容。为此,本文提出一种两阶段方法:文本到动作长度采样(text2length sampling)与文本到动作生成(text2motion generation)。其中,文本到动作长度采样阶段基于输入文本条件下的动作长度学习分布进行采样;随后,通过引入时间变分自编码器(temporal variational autoencoder)的文本到动作模块,生成与采样长度相匹配的一系列多样化人体动作。与直接处理姿态序列不同,本文提出以“动作片段码”(motion snippet code)作为内部动作表示,该表示能够捕捉局部语义动作上下文,在实验中被证明有助于生成与输入文本高度一致且符合物理合理性的动作。此外,本文构建了一个大规模的脚本化三维人体动作数据集——HumanML3D,包含14,616段动作片段和44,970条文本描述。大量实验证明了所提方法的有效性。项目主页:https://ericguo5513.github.io/text-to-motion/。

基准测试

基准方法指标
motion-synthesis-on-humanml3dT2M
Diversity: 9.175
FID: 1.087
Multimodality: 2.219
R Precision Top3: 0.736
motion-synthesis-on-inter-xT2M
FID: 5.481
MMDist: 9.576
MModality: 2.761
R-Precision Top3: 0.396
motion-synthesis-on-interhumanT2M
FID: 13.769
MMDist: 5.731
MModality: 1.387
R-Precision Top3: 0.464
motion-synthesis-on-kit-motion-languageT2M
Diversity: 10.72
FID: 3.022
Multimodality: 2.052
R Precision Top3: 0.681

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从文本生成多样且自然的3D人体运动 | 论文 | HyperAI超神经