3 个月前

UniPose:单张图像与视频中的统一人体姿态估计

UniPose:单张图像与视频中的统一人体姿态估计

摘要

我们提出UniPose,一种基于“瀑布式”空洞空间池化(Waterfall Atrous Spatial Pooling)架构的统一人体姿态估计框架,在多个姿态估计指标上均取得了当前最优性能。现有基于标准卷积神经网络(CNN)架构的姿态估计方法在关键点定位上严重依赖统计后处理或预设的锚定姿态。相比之下,UniPose通过在单阶段内联合实现上下文分割与关键点定位,无需依赖统计后处理方法,即可实现高精度的人体姿态估计。UniPose中的“瀑布模块”(Waterfall module)充分利用级联架构中逐步过滤的高效性,同时保持与空间金字塔结构相当的多尺度感受野。此外,我们将该方法扩展至UniPose-LSTM,用于多帧视频序列的处理,在视频时序姿态估计任务中同样达到了当前最优水平。在多个数据集上的实验结果表明,采用ResNet主干网络与瀑布模块的UniPose,是一种鲁棒且高效的姿态估计架构,在单人姿态检测任务中,无论是单帧图像还是视频序列,均取得了当前最优的性能表现。

代码仓库

基准测试

基准方法指标
pose-estimation-on-leeds-sports-posesUniPose
PCK: 94.5%
pose-estimation-on-mpii-human-poseUniPose
PCKh-0.5: 92.7
pose-estimation-on-upenn-actionUniPose-LSTM
Mean PCK@0.2: 99.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniPose:单张图像与视频中的统一人体姿态估计 | 论文 | HyperAI超神经