
摘要
不同视角下的人体姿态描绘可能会有所变化。我们希望仅利用二维信息,使视觉算法能够在多个视角中识别出相似的人体姿态。这种能力对于分析图像和视频中的人体动作和行为非常有用。在本文中,我们提出了一种方法,通过仅使用二维关节关键点来学习一个紧凑的视角不变嵌入空间,而无需显式预测三维姿态。由于二维姿态是从三维空间投影而来,因此存在固有的模糊性,这很难通过确定性的映射来表示。因此,我们使用概率嵌入来建模这种输入不确定性。实验结果表明,我们的嵌入模型在从不同摄像机视角检索相似姿态时具有更高的准确性,相较于2D到3D的姿态提升模型。我们还展示了将该嵌入应用于视角不变的动作识别和视频对齐的有效性。我们的代码可在https://github.com/google-research/google-research/tree/master/poem 获取。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| pose-retrieval-on-human3-6m | Pr-VIPE | Hit@1: 76.2 Hit@10: 95.6 |
| pose-retrieval-on-mpi-inf-3dhp | Pr-VIPE | Hit@1: 26.4 Hit@10: 58.6 |
| skeleton-based-action-recognition-on-upenn | Pr-VIPE | Accuracy: 97.5 |
| video-alignment-on-upenn-action | Pr-VIPE | Kendall's Tau: 0.7476 |