3 个月前

SRNet:基于分治重连策略提升3D人体姿态估计的泛化能力

SRNet:基于分治重连策略提升3D人体姿态估计的泛化能力

摘要

在训练集中罕见或未见过的人体姿态,对神经网络的预测构成了挑战。这与视觉识别中的长尾分布问题类似:由于此类姿态的样本数量极少,导致网络难以有效建模。有趣的是,局部姿态分布受长尾问题的影响较小——即在罕见姿态中出现的局部关节构型,可能在训练集中的其他姿态中频繁出现,因而其本身并不算真正罕见。我们提出利用这一特性,以提升网络对罕见及未见姿态的泛化能力。具体而言,我们的方法将人体划分为多个局部区域,并在独立的网络分支中分别处理这些区域,充分利用了关节位置主要依赖于其所在局部身体区域中其他关节这一特性。同时,通过将身体其余部分的全局上下文信息以低维向量的形式重新引入每个分支,从而保持整体姿态的一致性与连贯性。由于减少了与当前局部区域关联性较弱的身体区域的维度,网络分支中的训练数据分布更贴近局部姿态的真实统计特性,而非全局姿态分布,同时并未丢失对关节推断至关重要的信息。所提出的“分割-重组”方法(称为SRNet)可轻松适配单图像模型与时序模型,显著提升了对罕见及未见姿态的预测性能。

代码仓库

ailingzengzzz/Split-and-Recombine-Net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mSRNet (T=243)
Average MPJPE (mm): 44.8
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mSRNet (T=1)
Average MPJPE (mm): 49.9
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mSRNet (T=243 GT)
Average MPJPE (mm): 32
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: Yes
3d-human-pose-estimation-on-human36mSRNet (T=1 GT)
Average MPJPE (mm): 33.9
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: Yes
3d-human-pose-estimation-on-mpi-inf-3dhpSRNET
AUC: 43.8
PCK: 77.6
monocular-3d-human-pose-estimation-on-human3SRNET
Average MPJPE (mm): 49.9
Frames Needed: 1
Need Ground Truth 2D Pose: No
Use Video Sequence: No

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SRNet:基于分治重连策略提升3D人体姿态估计的泛化能力 | 论文 | HyperAI超神经