
摘要
我们提出了一种使用单个RGB相机以超过30帧每秒(fps)的速度进行多人三维运动捕捉的实时方法。该方法能够在包含物体遮挡和其他人遮挡的通用场景中成功运行。我们的方法分为几个连续的阶段。第一阶段是一个卷积神经网络(CNN),用于估计所有可见关节的二维和三维姿态特征以及身份分配。为此,我们贡献了一种新的CNN架构,称为SelecSLS Net,它采用了新颖的选择性长程和短程跳跃连接来改善信息流,从而在不牺牲精度的情况下实现显著更快的网络速度。第二阶段是一个全连接神经网络,将每个主体因遮挡可能部分缺失的二维姿态和三维姿态特征转换为完整的三维姿态估计。第三阶段对每个主体预测的二维和三维姿态应用时空骨骼模型拟合,进一步协调二维和三维姿态,并强制执行时间连贯性。我们的方法返回每个主体的完整骨骼姿态,以关节角度的形式表示。这是与之前工作的一个重要区别,因为之前的多人体场景实时方法无法生成连贯骨骼的关节角度结果。所提出的系统在消费级硬件上运行时,输入分辨率为512x320的图像可以达到前所未有的超过30帧每秒的速度,并且实现了最先进的精度,这一点将在一系列具有挑战性的实际场景中得到验证。
代码仓库
rwightman/pytorch-image-models
pytorch
GitHub 中提及
osmr/imgclsmob
mxnet
GitHub 中提及
mehtadushy/SelecSLS-Pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | SelecSLS | Average MPJPE (mm): 63.6 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | XNect (SelecSLS) | AUC: 45.3 MPJPE: 98.4 PCK: 82.8 |
| 3d-multi-person-human-pose-estimation-on | SelecSLS | 3DPCK: 75.8 |
| monocular-3d-human-pose-estimation-on-human3 | SelecSLS | Average MPJPE (mm): 63.6 Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |