
摘要
我们提出了一种新的多人3D运动轨迹预测框架。我们的关键观察是,一个人的行为可能高度依赖于周围其他人的行为。因此,我们引入了一种多范围Transformer模型,该模型包含一个用于个体运动的局部范围编码器和一个用于社会互动的全局范围编码器。Transformer解码器通过将相应姿态作为查询,同时关注局部和全局范围编码器的特征,对每个人进行预测。我们的模型不仅在长期3D运动预测方面优于现有最先进方法,还能生成多样化的社会互动。更有趣的是,我们的模型可以通过自动将人员分成不同的互动小组,实现同时预测15个人的运动轨迹。项目页面及代码可在https://jiashunwang.github.io/MRT/ 获取。
代码仓库
jiashunwang/MRT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-person-pose-forecasting-on-expi-common | MRT | Average MPJPE (mm) @ 1000 ms: 238 Average MPJPE (mm) @ 200 ms: 58 Average MPJPE (mm) @ 400 ms: 116 Average MPJPE (mm) @ 600 ms: 163 |
| multi-person-pose-forecasting-on-expi-unseen | MRT | Average MPJPE (mm) @ 400 ms: 146 Average MPJPE (mm) @ 600 ms: 205 Average MPJPE (mm) @ 800 ms: 291 |