3 个月前

FineMoGen:细粒度时空运动生成与编辑

FineMoGen:细粒度时空运动生成与编辑

摘要

基于文本驱动的动作生成在扩散模型兴起的背景下取得了显著进展。然而,现有方法在生成与细粒度描述相对应的复杂动作序列方面仍面临挑战,难以准确刻画详细且精确的时空动作。这种细粒度控制能力的缺失限制了动作生成技术的广泛应用。为应对上述问题,我们提出 FineMoGen——一种基于扩散模型的动作生成与编辑框架,能够根据用户指令合成具有精细时空结构的动作。具体而言,FineMoGen 在扩散模型基础上引入了一种新颖的 Transformer 架构,称为时空混合注意力(Spatio-Temporal Mixture Attention, SAMI)。SAMI 从两个方面优化全局注意力模板的生成:1)显式建模时空组合的约束条件;2)利用稀疏激活的专家混合(Mixture-of-Experts)机制,自适应地提取细粒度特征。为推动该细粒度动作生成任务的大规模研究,我们构建了 HuMMan-MoGen 数据集,包含 2,968 个视频和 102,336 条细粒度时空描述。大量实验结果表明,FineMoGen 在动作生成质量方面显著优于当前最先进的方法。尤为突出的是,借助现代大型语言模型(LLM),FineMoGen 还实现了零样本动作编辑能力,能够忠实响应细粒度指令对动作序列进行精确操控。项目主页:https://mingyuan-zhang.github.io/projects/FineMoGen.html

代码仓库

基准测试

基准方法指标
motion-synthesis-on-humanml3dFineMoGen
Diversity: 9.263
FID: 0.151
Multimodality: 2.696
R Precision Top3: 0.784
motion-synthesis-on-kit-motion-languageFineMoGen
Diversity: 10.85
FID: 0.178
Multimodality: 1.877
R Precision Top3: 0.772

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FineMoGen:细粒度时空运动生成与编辑 | 论文 | HyperAI超神经