
摘要
我们提出了一种从动态摄像机录制的单目视频中恢复三维全局人体网格的方法。该方法对严重的长期遮挡具有鲁棒性,即使人体超出摄像机视野范围也能进行跟踪。为了实现这一目标,我们首先提出了一种深度生成运动填充器,该填充器基于可见运动自回归地填充被遮挡人体的运动。此外,与先前的工作不同,我们的方法能够在动态摄像机下重建一致的全局坐标系中的人体网格。由于人体运动和摄像机姿态的联合重建存在约束不足的问题,我们提出了一种全局轨迹预测器,该预测器根据局部身体运动生成全局人体轨迹。利用预测的轨迹作为锚点,我们呈现了一个全局优化框架,该框架不仅细化了预测的轨迹,还优化了摄像机姿态以匹配视频证据(如2D关键点)。在具有挑战性的室内和野外数据集上的实验表明,所提出的 方法在运动填充和全局网格恢复方面显著优于先前的方法。
代码仓库
nvlabs/glamr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-emdb | GLAMR | Average MPJAE (deg): 25.5058 Average MPJAE-PA (deg): 23.5484 Average MPJPE (mm): 107.797 Average MPJPE-PA (mm): 71.0091 Average MVE (mm): 128.237 Average MVE-PA (mm): 85.4586 Jitter (10m/s^3): 67.3522 |
| global-3d-human-pose-estimation-on-emdb | GLAMR | Average G-MPJPE (mm): 3193 Average G-MVE (mm): 3203 |