3 个月前

Fg-T2M:基于扩散模型的细粒度文本驱动人体运动生成

Fg-T2M:基于扩散模型的细粒度文本驱动人体运动生成

摘要

在计算机视觉领域,基于文本的人体动作生成具有重要意义,同时也面临严峻挑战。然而,现有方法通常仅能生成确定性或模糊的动作序列,难以有效控制动作在时间与空间上的关系,以精确匹配给定的文本描述。为此,本文提出一种细粒度的人体动作生成方法,能够生成高质量、条件可控的动作序列,并支持对文本描述的精确建模。本方法包含两个核心组件:1)基于语言结构的辅助模块,用于构建准确且完整的语言特征,充分挖掘文本信息;2)上下文感知的渐进式推理模块,通过浅层与深层图神经网络分别学习局部与全局的语义语言特征,实现多阶段推理。实验结果表明,所提方法在HumanML3D和KIT测试集上均优于现有的文本驱动动作生成方法,生成的动作在视觉上与文本条件具有更强的一致性。

基准测试

基准方法指标
motion-synthesis-on-humanml3dFg-T2M
Diversity: 9.278
FID: 0.243
Multimodality: 1.614
R Precision Top3: 0.783
motion-synthesis-on-kit-motion-languageFg-T2M
Diversity: 10.93
FID: 0.571
Multimodality: 1.019
R Precision Top3: 0.745

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Fg-T2M:基于扩散模型的细粒度文本驱动人体运动生成 | 论文 | HyperAI超神经