摘要
本文提出了一种基于多视角校准图像的实时三维人体姿态重建算法,适用于人群密集场景。该问题的核心挑战在于如何高效地实现多视角之间的二维观测匹配。以往的方法通常在整体身体层面或局部肢体层面进行多视角匹配:前者对二维姿态估计误差较为敏感,后者则忽略了同一视角下不同类型身体部位之间的二维约束关系。相比之下,本文方法在多视角匹配过程中,对所有可能的骨骼结构假设进行推理,其中每个骨骼结构可由任意数量的肢体部件组成,而非局限于完整身体或单一部件。为此,我们将多视角匹配问题建模为骨骼结构假设空间中的模式搜索问题,并提出一种高效的算法——QuickPose,实现了在人群密集场景下的实时动作捕捉。实验结果表明,该算法在公开数据集上的速度与精度方面均达到了当前最优水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-multi-person-pose-estimation-on-cmu | QuickPose | Average MPJPE (mm): 20.0 |
| 3d-multi-person-pose-estimation-on-shelf | QuickPose | PCP3D: 98.1 |