7 个月前

摘要

现有的基于视频的三维人体姿态估计深度学习方法主要依赖于递归神经网络（RNN）或卷积神经网络（CNN）。然而，基于RNN的框架只能处理有限帧数的序列，因为顺序模型对不良帧非常敏感，并且在长序列中容易产生漂移。尽管现有的基于CNN的时间框架试图通过同时处理序列中的所有输入帧来解决敏感性和漂移问题，但最先进的基于CNN的框架仍然仅限于从顺序输入中估计单个帧的三维姿态。在本文中，我们提出了一种利用矩阵分解进行连续三维人体姿态估计的深度学习框架。我们的方法同时处理所有输入帧以避免敏感性和漂移问题，同时为输入序列中的每一帧输出三维姿态估计结果。具体而言，所有帧中的三维姿态被表示为一个运动矩阵，该矩阵被分解为轨迹基矩阵和轨迹系数矩阵。轨迹基矩阵通过如奇异值分解（SVD）或离散余弦变换（DCT）等矩阵分解方法预先计算得到，而连续三维姿态估计的问题则简化为训练一个深度网络来回归轨迹系数矩阵。我们在多个基准数据集上展示了我们框架的有效性，实现了最先进的性能。我们的源代码可在以下地址获取：https://github.com/jiahaoLjh/trajectory-pose-3d。

源 PDF