
摘要
在训练集中罕见或未见过的人体姿态,对神经网络的预测构成了挑战。这与视觉识别中的长尾分布问题类似:由于此类姿态的样本数量极少,导致网络难以有效建模。有趣的是,局部姿态分布受长尾问题的影响较小——即在罕见姿态中出现的局部关节构型,可能在训练集中的其他姿态中频繁出现,因而其本身并不算真正罕见。我们提出利用这一特性,以提升网络对罕见及未见姿态的泛化能力。具体而言,我们的方法将人体划分为多个局部区域,并在独立的网络分支中分别处理这些区域,充分利用了关节位置主要依赖于其所在局部身体区域中其他关节这一特性。同时,通过将身体其余部分的全局上下文信息以低维向量的形式重新引入每个分支,从而保持整体姿态的一致性与连贯性。由于减少了与当前局部区域关联性较弱的身体区域的维度,网络分支中的训练数据分布更贴近局部姿态的真实统计特性,而非全局姿态分布,同时并未丢失对关节推断至关重要的信息。所提出的“分割-重组”方法(称为SRNet)可轻松适配单图像模型与时序模型,显著提升了对罕见及未见姿态的预测性能。
代码仓库
ailingzengzzz/Split-and-Recombine-Net
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | SRNet (T=243) | Average MPJPE (mm): 44.8 Multi-View or Monocular: Monocular Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | SRNet (T=1) | Average MPJPE (mm): 49.9 Multi-View or Monocular: Monocular Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | SRNet (T=243 GT) | Average MPJPE (mm): 32 Multi-View or Monocular: Monocular Using 2D ground-truth joints: Yes |
| 3d-human-pose-estimation-on-human36m | SRNet (T=1 GT) | Average MPJPE (mm): 33.9 Multi-View or Monocular: Monocular Using 2D ground-truth joints: Yes |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | SRNET | AUC: 43.8 PCK: 77.6 |
| monocular-3d-human-pose-estimation-on-human3 | SRNET | Average MPJPE (mm): 49.9 Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |