3 个月前

TransFusion:一种实用且高效的基于Transformer的3D人体动作预测扩散模型

TransFusion:一种实用且高效的基于Transformer的3D人体动作预测扩散模型

摘要

在未来的智能再制造系统中,人机近距离协同的安全性与有效性高度依赖于对人类运动的准确预测。现有研究可大致分为两类:一类侧重于预测精度,仅生成单一的未来运动轨迹;另一类则基于观测数据生成多样化的预测结果。前者未能充分考虑人类运动固有的不确定性与多模态特性,而后者往往生成的运动序列与真实轨迹偏差过大,或在历史上下文中显得不切实际。为解决上述问题,本文提出TransFusion——一种创新且实用的基于扩散模型的三维人类运动预测方法。该方法能够在保持一定多样性的前提下,生成更符合实际发生概率的运动样本。我们的模型以Transformer作为主干网络,并在浅层与深层之间引入长距离跳跃连接,以增强特征传递能力。此外,我们采用离散余弦变换(Discrete Cosine Transform, DCT)在频域建模运动序列,从而提升预测性能。与以往基于扩散模型的方法不同,后者通常依赖额外模块(如交叉注意力机制和自适应层归一化)来将历史观测作为条件输入,而本文将所有输入(包括条件信息)统一视为序列中的“token”,构建了一个更为轻量化的模型架构。在多个基准数据集上开展的大量实验验证了所提方法在人类运动预测任务中的有效性与优越性。

代码仓库

基准测试

基准方法指标
human-pose-forecasting-on-amassTransFusion
ADE: 0.508
APD: 8.853
FDE: 0.568
human-pose-forecasting-on-human36mTransFusion
ADE: 358
APD: 5975
FDE: 468
MMADE: 506
MMFDE: 539
human-pose-forecasting-on-humaneva-iTransFusion
ADE@2000ms: 204
APD@2000ms: 1031
FDE@2000ms: 234
MMADE@2000ms: 408
MMFDE@2000ms: 427

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TransFusion:一种实用且高效的基于Transformer的3D人体动作预测扩散模型 | 论文 | HyperAI超神经