
摘要
我们提出了一种重建人体并实现长时间跟踪的方法。在该方法的核心,我们设计了一种完全“Transformer化”的人体网格恢复网络。该网络名为HMR 2.0,显著提升了当前技术水平,展现出从单张图像中分析异常姿态的能力,而这类姿态在过去一直难以准确重建。为处理视频数据,我们以HMR 2.0生成的三维重建结果作为输入,驱动一个在三维空间中运行的跟踪系统。该设计使我们能够有效应对多人场景,并在遮挡事件中保持个体身份的一致性。我们提出的完整方法——4DHumans,在单目视频中对人体跟踪任务上取得了当前最优的性能。此外,我们还验证了HMR 2.0在下游任务动作识别中的有效性,相较于以往基于姿态的动作识别方法,实现了显著的性能提升。相关代码与模型已开源,可在项目主页获取:https://shubham-goel.github.io/4dhumans/。
代码仓库
shubham-goel/4D-Humans
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | HMR 2.0 | MPJPE: 69.8 MPVPE: 82.2 PA-MPJPE: 44.4 |
| 3d-human-pose-estimation-on-human36m | HMR 2.0a | Average MPJPE (mm): 44.8 PA-MPJPE: 33.6 |
| pose-tracking-on-posetrack2018 | 4DHumans + ViTDet | IDF1: 79.3 IDs: 367 MOTA: 61.9 |