
摘要
在未来的智能再制造系统中,人机近距离协同的安全性与有效性高度依赖于对人类运动的准确预测。现有研究可大致分为两类:一类侧重于预测精度,仅生成单一的未来运动轨迹;另一类则基于观测数据生成多样化的预测结果。前者未能充分考虑人类运动固有的不确定性与多模态特性,而后者往往生成的运动序列与真实轨迹偏差过大,或在历史上下文中显得不切实际。为解决上述问题,本文提出TransFusion——一种创新且实用的基于扩散模型的三维人类运动预测方法。该方法能够在保持一定多样性的前提下,生成更符合实际发生概率的运动样本。我们的模型以Transformer作为主干网络,并在浅层与深层之间引入长距离跳跃连接,以增强特征传递能力。此外,我们采用离散余弦变换(Discrete Cosine Transform, DCT)在频域建模运动序列,从而提升预测性能。与以往基于扩散模型的方法不同,后者通常依赖额外模块(如交叉注意力机制和自适应层归一化)来将历史观测作为条件输入,而本文将所有输入(包括条件信息)统一视为序列中的“token”,构建了一个更为轻量化的模型架构。在多个基准数据集上开展的大量实验验证了所提方法在人类运动预测任务中的有效性与优越性。
代码仓库
sibotian96/TransFusion
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-pose-forecasting-on-amass | TransFusion | ADE: 0.508 APD: 8.853 FDE: 0.568 |
| human-pose-forecasting-on-human36m | TransFusion | ADE: 358 APD: 5975 FDE: 468 MMADE: 506 MMFDE: 539 |
| human-pose-forecasting-on-humaneva-i | TransFusion | ADE@2000ms: 204 APD@2000ms: 1031 FDE@2000ms: 234 MMADE@2000ms: 408 MMFDE@2000ms: 427 |