3 个月前

用于人体姿态估计的深度双连续网络

用于人体姿态估计的深度双连续网络

摘要

在复杂场景下的多帧人体姿态估计是一项极具挑战性的任务。尽管当前最先进的关节检测模型在静态图像上已取得显著成果,但当将其应用于视频序列时,性能往往显著下降。现有方法普遍存在难以处理运动模糊、视频失焦或姿态遮挡等问题,其根源在于无法有效捕捉视频帧之间的时序依赖关系。另一方面,直接采用传统的循环神经网络在建模空间上下文方面也面临实际困难,尤其是在处理姿态遮挡问题时表现不佳。针对上述问题,本文提出了一种新颖的多帧人体姿态估计框架,充分利用视频帧间的丰富时序信息,以提升关键点检测的准确性。该框架包含三个模块化组件:姿态时序融合模块(Pose Temporal Merger)用于编码关键点的时空上下文,生成有效的搜索区域;姿态残差融合模块(Pose Residual Fusion)则在双向方向上计算加权姿态残差;随后,上述结果通过我们提出的姿态校正网络(Pose Correction Network)进行高效的姿态估计优化。所提方法在大规模基准数据集PoseTrack2017和PoseTrack2018的多帧人体姿态估计挑战赛中均取得第一名的成绩。相关代码已公开发布,旨在为后续研究提供启发与支持。

代码仓库

Pose-Group/DCPose
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于人体姿态估计的深度双连续网络 | 论文 | HyperAI超神经