3 个月前

基于运动学感知的分层注意力网络用于视频中的人体姿态估计

基于运动学感知的分层注意力网络用于视频中的人体姿态估计

摘要

基于视频的人体姿态估计方法先前已通过利用连续帧的聚合特征取得了令人瞩目的成果。然而,大多数现有方法在缓解抖动(jitter)问题时往往以牺牲精度为代价,且未能充分建模人体运动的时序特性。此外,遮挡现象会加剧连续帧之间的不确定性,导致姿态估计结果不够平滑。为解决上述问题,我们设计了一种新架构,通过引入关键点运动学特征,包含以下三个核心组件:首先,通过利用单个关键点的速度与加速度信息,有效捕捉时序特征;其次,提出一种分层Transformer编码器,用于聚合时空依赖关系,并对现有姿态估计器输出的2D或3D姿态进行精细化优化;最后,我们在编码器生成的优化输入姿态与解码器输出的最终姿态之间引入在线交叉监督机制,实现联合优化。实验结果表明,我们的方法在多项任务中均展现出全面且优异的性能,包括2D姿态估计、3D姿态估计、人体网格重建以及稀疏标注下的多人体姿态估计。相关代码已开源,地址为:https://github.com/KyungMinJin/HANet。

代码仓库

kyungminjin/hanet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwPARE + HANet (T=101)
Acceleration Error: 6.8
MPJPE: 77.1
3d-human-pose-estimation-on-3dpwPARE + HANet (T=51)
Acceleration Error: 8
MPJPE: 74.6
3d-human-pose-estimation-on-aistSPIN + HANet (T=101)
Acceleration Error: 5.4
MPJPE: 69.2
3d-human-pose-estimation-on-aistSPIN + HANet (T=51)
Acceleration Error: 6.4
MPJPE: 64.3
3d-human-pose-estimation-on-human36mMhformer + HANet (T=101)
Acceleration Error: 0.8
Average MPJPE (mm): 35.4
pose-estimation-on-j-hmdbSimpleBaseline + HANet
Mean PCK@0.05: 91.9
Mean PCK@0.1: 98.3
Mean PCK@0.2: 99.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于运动学感知的分层注意力网络用于视频中的人体姿态估计 | 论文 | HyperAI超神经