3 个月前

AttT2M:基于多视角注意力机制的文本驱动人体运动生成

AttT2M:基于多视角注意力机制的文本驱动人体运动生成

摘要

基于文本描述生成三维人体动作近年来成为研究热点。该任务要求生成的动作具备多样性、自然性,并严格符合文本描述内容。由于人体动作具有复杂的时空特性,且文本与动作之间跨模态关系的学习难度较大,因此文本驱动的动作生成仍是一项极具挑战性的问题。为解决上述问题,我们提出了一种两阶段方法——AttT2M,其核心是引入多视角注意力机制:肢体部位注意力(body-part attention)与全局-局部运动-文本注意力(global-local motion-text attention)。前者从动作嵌入的视角出发,通过在VQ-VAE中引入肢体部位的时空编码器,学习更具表现力的离散潜在空间;后者则从跨模态角度出发,用于建模句子级与词级的运动-文本跨模态关联。最终,通过生成式Transformer实现文本驱动的动作合成。在HumanML3D和KIT-ML数据集上的大量实验表明,所提方法在定性与定量评估上均优于当前最先进的技术,在细粒度动作合成及动作到动作的生成(action2motion)方面表现优异。项目代码已开源,地址为:https://github.com/ZcyMonkey/AttT2M。

代码仓库

zcymonkey/attt2m
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
motion-synthesis-on-humanml3dAttT2M
Diversity: 9.700
FID: 0.112
Multimodality: 2.452
R Precision Top3: 0.786
motion-synthesis-on-kit-motion-languageAttT2M
Diversity: 10.96
FID: 0.870
Multimodality: 2.281
R Precision Top3: 0.751

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AttT2M:基于多视角注意力机制的文本驱动人体运动生成 | 论文 | HyperAI超神经