
摘要
尽管基于卷积神经网络(CNN)的模型在人体姿态估计任务上取得了显著进展,但其在定位关键点时所捕捉的空间依赖关系仍不明确。本文提出了一种名为 \textbf{TransPose} 的新模型,首次将 Transformer 架构引入人体姿态估计任务。Transformer 中内置的注意力机制使模型能够高效捕捉长距离依赖关系,同时还能揭示预测关键点所依赖的具体空间关系。为生成关键点热图,模型最后一层注意力机制充当聚合器,整合来自图像的多源线索,并定位热图中的峰值位置。这种基于 Transformer 的热图定位方式遵循了激活最大化(Activation Maximization)的基本原理~\cite{erhan2009visualizing}。所揭示的依赖关系具有高度图像特异性与细粒度特征,能够为模型处理特殊情形(如遮挡)提供可解释性证据。实验结果表明,TransPose 在 COCO 验证集和测试集(test-dev)上分别取得了 75.8 AP 和 75.0 AP 的性能表现,同时在模型轻量化和推理速度方面优于主流 CNN 架构。此外,TransPose 在 MPII 基准测试上也展现出优异的迁移能力,仅需少量微调即可在测试集上达到领先性能。代码与预训练模型已公开发布\footnote{\url{https://github.com/yangsenius/TransPose}}。
代码仓库
yangsenius/TransPose
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keypoint-detection-on-coco | TransPose(256x192) | Test AP: 75.0 Validation AP: 75.8 |
| multi-person-pose-estimation-on-crowdpose | TransPose-H | AP Easy: 79.5 AP Hard: 62.2 AP Medium: 72.9 mAP @0.5:0.95: 71.8 |
| multi-person-pose-estimation-on-ochuman | TransPose-H | AP50: 82.7 AP75: 67.1 |
| pose-estimation-on-coco-test-dev | TransPose-H-A6 | AP: 75 AP50: 92.2 AP75: 82.3 APL: 81.1 APM: 71.3 |
| pose-estimation-on-mpii-human-pose | TransPose | PCKh-0.5: 93.5 |
| pose-estimation-on-ochuman | TransPose-H | Validation AP: 62.3 |