4 个月前

显式框检测统一了端到端多人姿态估计

显式框检测统一了端到端多人姿态估计

摘要

本文提出了一种新颖的端到端框架,该框架通过显式框检测(Explicit box Detection)进行多人姿态估计,称为ED-Pose。该框架统一了人类级别(全局)和关键点级别(局部)信息之间的上下文学习。与之前的单阶段方法不同,ED-Pose重新考虑了这一任务,将其视为两个具有统一表示和回归监督的显式框检测过程。首先,我们引入了一个从编码令牌中提取全局特征的人类检测解码器。它为后续的关键点检测提供了良好的初始化,使训练过程快速收敛。其次,为了引入关键点附近的上下文信息,我们将姿态估计视为一个关键点框检测问题,以学习每个关键点的框位置和内容。一个人类到关键点检测解码器采用了人类特征和关键点特征之间的交互学习策略,进一步增强了全局和局部特征的聚合。总体而言,ED-Pose在概念上简单且无需后处理和密集热图监督。与两阶段和单阶段方法相比,它展示了其有效性和高效性。值得注意的是,显式框检测在COCO数据集上将姿态估计性能提升了4.5个AP,在CrowdPose数据集上提升了9.9个AP。作为第一个完全端到端且采用L1回归损失的框架,ED-Pose首次在相同的骨干网络下超越了基于热图的自顶向下方法,在COCO数据集上提升了1.2个AP,并在CrowdPose数据集上达到了76.6个AP的最佳性能,而无需复杂的技巧。代码可在https://github.com/IDEA-Research/ED-Pose 获取。

代码仓库

michel-liu/grouppose-paddle
paddle
GitHub 中提及
idea-research/ed-pose
官方
pytorch
GitHub 中提及
michel-liu/grouppose
pytorch
GitHub 中提及

基准测试

基准方法指标
2d-human-pose-estimation-on-human-artED-Pose (R50)
AP: 0.723
AP (gt bbox): /
multi-person-pose-estimation-on-crowdposeED-Pose (Swin-L)
AP Easy: 83.0
AP Hard: 68.3
AP Medium: 77.3
mAP @0.5:0.95: 76.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
显式框检测统一了端到端多人姿态估计 | 论文 | HyperAI超神经