8 个月前

摘要

尽管最近取得了进展，但从单目视频中进行多人三维姿态估计仍然具有挑战性，主要是由于遮挡、部分目标人物出框以及人物检测不准确导致的信息缺失问题。为了解决这一问题，我们提出了一种新颖的框架，该框架集成了图卷积网络（GCNs）和时间卷积网络（TCNs），以稳健地估计无需相机参数的摄像机中心多人三维姿态。具体而言，我们引入了一种基于有向图的人体关节GCN，该方法利用二维姿态估计器的置信度分数来改进姿态估计结果。此外，我们还引入了人体骨骼GCN，该模型描述了骨骼连接，并提供了超出人体关节的更多信息。这两种GCN协同工作，可以利用目标帧中的可见关节和骨骼信息来估计被遮挡或缺失的人体部分信息。为了进一步优化三维姿态估计，我们使用时间卷积网络（TCNs）来施加时间和人体动态约束。我们采用联合TCN在多帧之间估计以人物为中心的三维姿态，并提出了一种速度TCN来估计三维关节的速度，以确保连续帧之间的三维姿态估计一致性。最后，为了估计多个目标人物的三维人体姿态，我们提出了根TCN来估算无需相机参数的摄像机中心三维姿态。定量和定性评估均证明了所提方法的有效性。

源 PDF