3 个月前

InterGen:基于扩散模型的复杂交互下多人类运动生成

InterGen:基于扩散模型的复杂交互下多人类运动生成

摘要

近年来,基于扩散模型的人体动作生成技术取得了显著进展,能够生成高度逼真的单人动作。然而,现有方法大多忽视了多人之间的交互行为。本文提出InterGen,一种基于扩散模型的有效方法,将人与人之间的交互关系融入动作生成过程,仅需文本引导即可让普通用户自定义高质量的双人交互动作。首先,我们构建了一个多模态数据集,命名为InterHuman。该数据集包含约1.07亿帧的多样化双人交互动作,涵盖精确的骨骼运动信息以及23,337条自然语言描述,为交互动作建模提供了丰富且高质量的数据支持。在算法层面,我们针对双人交互场景对运动扩散模型进行了精心设计。为应对交互过程中人物身份对称性问题,我们提出两个基于Transformer的协作去噪器(cooperative denoisers),通过显式共享参数,并引入互注意力机制(mutual attention mechanism)以进一步关联两个去噪过程,增强交互建模能力。此外,我们提出一种新颖的运动输入表示方法,在世界坐标系下显式建模两名表演者之间的全局关系。为进一步编码空间关系,我们设计了两个新型正则化项,并在训练过程中引入相应的阻尼机制(damping scheme),以提升模型对空间约束的建模能力。大量实验验证了InterGen在生成效果与泛化能力方面的优越性。结果表明,相较于现有方法,InterGen能够生成更加多样且更具表现力的双人交互动作,同时支持多种下游应用,为复杂人机交互场景下的动作生成提供了有力工具。

代码仓库

tr3e/intergen
官方
GitHub 中提及

基准测试

基准方法指标
motion-synthesis-on-inter-xInterGen
FID: 5.207
MMDist: 9.580
MModality: 3.686
R-Precision Top3: 0.429
motion-synthesis-on-interhumanInterGen
FID: 5.918
MMDist: 5.108
MModality: 2.141
R-Precision Top3: 0.624

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InterGen:基于扩散模型的复杂交互下多人类运动生成 | 论文 | HyperAI超神经