3 个月前

基于显式遮挡训练的时空网络用于3D人体姿态估计

基于显式遮挡训练的时空网络用于3D人体姿态估计

摘要

尽管近年来在单目视频中估计三维人体姿态方面取得了显著进展,但该任务依然极具挑战性。通常情况下,当目标人物在视频中过小或过大,或其运动速度相对于训练数据的尺度与速度过快或过慢时,现有方法的性能会明显下降。此外,据我们所知,许多现有方法并未在严重遮挡条件下进行专门设计或训练,导致其在处理遮挡情况时表现欠佳。为应对上述问题,本文提出一种具有鲁棒性的时空网络,用于三维人体姿态估计。考虑到视频中人体可能呈现不同尺度且运动速度各异,我们采用多尺度空间特征来预测每一帧中的二维关键点,并结合多步长时间卷积网络(Temporal Convolutional Networks, TCNs)来估计三维关键点。此外,我们设计了一种基于人体结构与肢体运动的时空判别器,用于评估预测姿态是否合理以及运动是否符合人体运动规律。在训练过程中,我们显式地对部分关键点进行掩码处理,以模拟从轻微到严重的各种遮挡场景,从而使网络能够学习到更强的抗遮挡能力。由于三维真实标注数据有限,我们进一步引入二维视频数据,为网络赋予半监督学习能力。在公开数据集上的实验验证了所提方法的有效性,消融实验也充分展示了网络各子模块的贡献与优势。

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwSpatio-Temporal Network (T=128)
PA-MPJPE: 71.8
3d-human-pose-estimation-on-human36mSpatio-Temporal Network (T=128)
Average MPJPE (mm): 40.1
Multi-View or Monocular: Monocular
PA-MPJPE: 30.7
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-humaneva-iSpatio-Temporal Network (T=128)
Mean Reconstruction Error (mm): 13.5
3d-human-pose-estimation-on-mpi-inf-3dhpSpatio-Temporal Network (T=128)
PCK: 84.1
monocular-3d-human-pose-estimation-on-human3Spatio-Temporal Network (T=128)
Average MPJPE (mm): 40.1
Frames Needed: 128
Need Ground Truth 2D Pose: No
PA-MPJPE: 30.7
Use Video Sequence: Yes

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于显式遮挡训练的时空网络用于3D人体姿态估计 | 论文 | HyperAI超神经