4 个月前

薄片网络:一种用于视频姿态估计的深度结构模型

薄片网络:一种用于视频姿态估计的深度结构模型

摘要

深度卷积神经网络(ConvNets)已被证明在从单张图像中进行人体姿态估计的任务上非常有效。然而,在基于视频的情况下,存在一些具有挑战性的问题,如自遮挡、运动模糊以及训练数据集中很少或没有示例的不常见姿势。时间信息可以提供关于身体关节位置的额外线索,并有助于缓解这些问题。本文提出了一种用于在无约束视频中估计一系列人体姿态的深度结构模型。该模型可以高效地以端到端的方式进行训练,并能够同时表示身体关节的外观及其时空关系。有关人体的知识被明确地融入网络中,为骨骼结构提供了有效的先验知识,并强制执行时间一致性。所提出的端到端架构在两个广泛使用的基准数据集(Penn Action 数据集和 JHMDB 数据集)上进行了评估,用于基于视频的人体姿态估计。我们的方法显著优于现有的最先进方法。

基准测试

基准方法指标
pose-estimation-on-upenn-actionThin-Slicing
Mean PCK@0.2: 96.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
薄片网络:一种用于视频姿态估计的深度结构模型 | 论文 | HyperAI超神经