6 个月前

摘要

三维人体姿态估计通常被视为相对于根关节（如髋部）估计三维姿态的任务。与此不同，本文提出了一种基于相机坐标系的三维人体姿态估计方法，该方法能够有效融合二维标注数据与三维姿态信息，并实现直观的多视角泛化。为此，我们将问题建模为视锥空间（view frustum space）中的姿态估计，将绝对深度预测与关节间的相对深度估计解耦。最终的三维预测结果通过逆相机投影在相机坐标系中获得。基于此框架，我们进一步提出一种基于一致性（consensus-based）的优化算法，用于从未标定的多视角图像中进行姿态预测，且仅需单一的单目训练流程。尽管该方法在一定程度上依赖于训练阶段的相机内参，但其仍能在具有不同内参的相机上实现收敛，从而在尺度因子范围内获得一致且合理的估计结果。在多个知名三维人体姿态数据集上的实验表明，本方法显著优于现有技术水平，尤其在最常用的基准测试中，预测误差降低了32%。此外，我们在绝对姿态位置误差（absolute pose position error）方面也取得了优异表现：单目估计平均误差为80毫米，多视角估计平均误差为51毫米。

源 PDF