3 个月前

用于视频中3D人体姿态估计的图注意力时空卷积网络

用于视频中3D人体姿态估计的图注意力时空卷积网络

摘要

时空信息在解决三维姿态估计中的遮挡与深度模糊问题中起着关键作用。以往的方法通常仅关注时间上下文,或采用局部到全局的架构来嵌入固定长度的时空信息,但尚未有有效方法能够同时且灵活地捕捉变化的时空序列,并实现高效的实时三维姿态估计。本文中,我们通过注意力机制建模局部与全局空间信息,提升了对人体骨骼运动学约束(包括姿态、局部运动连接关系及对称性)的学习能力。为适应单帧与多帧姿态估计任务,我们引入了空洞时间模型,以处理不同长度的骨骼序列。尤为重要的是,我们精心设计了空间语义与时间依赖性的交错结构,从而实现协同增效。为此,我们提出了一种简单而有效的图注意力时空卷积网络(GAST-Net),其由交错排列的时间卷积模块与图注意力模块构成。在两个具有挑战性的基准数据集(Human3.6M 和 HumanEva-I)以及 YouTube 视频上的实验结果表明,所提方法能有效缓解深度模糊与自遮挡问题,具备对上半身姿态估计的泛化能力,并在2D到3D视频姿态估计任务中取得了具有竞争力的性能。代码、视频及补充材料可访问:http://www.juanrojas.net/gast/

代码仓库

fabro66/GAST-Net-3DPoseEstimation
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mGAST (T=27)
Average MPJPE (mm): 46.2
PA-MPJPE: 36
3d-human-pose-estimation-on-human36mGAST (T=81)
Average MPJPE (mm): 45.7
PA-MPJPE: 35.9
3d-human-pose-estimation-on-human36mGAST (T=9)
Average MPJPE (mm): 49
PA-MPJPE: 37.4
3d-human-pose-estimation-on-humaneva-iGAST
Mean Reconstruction Error (mm): 21.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供