
摘要
基于模型的人体姿态估计目前通过两种不同的范式进行研究。优化方法以迭代的方式将参数化的身体模型拟合到二维观测数据中,从而实现图像与模型之间的精确对齐,但这些方法通常速度较慢且对初始化敏感。相比之下,回归方法利用深度网络直接从像素中估计模型参数,虽然能够提供合理的结果,但通常达不到像素级精度,并且需要大量的监督数据。在本工作中,我们没有探究哪种方法更好,而是提出了一个关键见解:这两种范式可以形成强有力的协作。网络直接回归的合理估计可以作为迭代优化的初始值,使拟合过程更快、更准确。同样地,迭代优化得到的像素级精确拟合可以为网络提供强大的监督信号。这是我们提出的SPIN(SMPL oPtimization IN the loop)方法的核心思想。该深度网络在训练循环中初始化一个迭代优化过程,将身体模型拟合到二维关节上,然后使用拟合结果来监督网络。我们的方法具有自我改进的特性,因为更好的网络估计可以引导优化获得更好的解决方案,而更准确的优化拟合则为网络提供了更好的监督。我们在不同场景下验证了该方法的有效性,在三维真实数据稀缺或不可用的情况下,我们的方法始终显著优于现有的基于模型的姿态估计方法。项目网站包含视频、结果和代码,网址为:https://seas.upenn.edu/~nkolot/projects/spin。
代码仓库
nkolot/SPIN
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3d-poses-in-the | SPIN | MPJAE: 25.42 MPJPE: 102.56 |
| 3d-human-pose-estimation-on-3dpw | SPIN | MPJPE: 96.9 MPVPE: 116.4 PA-MPJPE: 59.2 |
| 3d-human-pose-estimation-on-agora | SPIN | B-MPJPE: 175.1 B-MVE: 168.7 B-NMJE: 223.1 B-NMVE: 216.3 |
| 3d-human-pose-estimation-on-human36m | SPIN | PA-MPJPE: 41.1 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | SPIN (Rigid Alignment) | AUC: 55.6 PA-MPJPE: 67.5 PCK: 92.5 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | SPIN | AUC: 37.1 MPJPE: 105.2 PCK: 76.4 |
| 3d-human-shape-estimation-on-ssp-3d | SPIN | PVE-T-SC: 22.2 mIOU: 70.0 |
| 3d-multi-person-pose-estimation-on-agora | SPIN | B-MPJPE: 175.1 B-MVE: 168.7 B-NMJE: 223.1 B-NMVE: 216.3 |