
摘要
多人运动预测是一项具有挑战性的任务,特别是在高度互动的真实场景中。大多数先前的研究主要集中在弱交互情况(例如,一起行走)上,在这种情况下,通常单独预测每个个体的姿态仍能取得良好的效果。本文专注于极端运动下的多人协作运动预测,并尝试探索高度互动个体之间的姿态轨迹关系。具体而言,提出了一种新颖的交叉查询注意力(Cross-Query Attention, XQA)模块,该模块专为此类情境设计,能够双向学习两个姿态序列之间的相互依赖关系。此外,引入了一个代理单元以连接相关个体,该单元与所提出的XQA模块协同工作,并巧妙地控制双向空间信息流。这些设计被整合到基于Transformer的架构中,形成了名为代理桥接游戏Transformer(Proxy-bridged Game Transformer, PGformer)的模型,用于多人互动运动预测。其有效性已在涉及高度互动动作的具有挑战性的ExPI数据集上进行了评估。结果表明,我们的PGformer在短期和长期预测方面均大幅优于现有最先进方法。此外,我们的方法还兼容弱交互的CMU-Mocap和MuPoTS-3D数据集,并可扩展应用于超过2个个体的情况,取得了令人鼓舞的结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-person-pose-forecasting-on-expi-common | PGformer | Average MPJPE (mm) @ 1000 ms: 231 Average MPJPE (mm) @ 200 ms: 53 Average MPJPE (mm) @ 400 ms: 108 Average MPJPE (mm) @ 600 ms: 156 |