3 个月前

TransPose:基于Transformer的关键点定位

TransPose:基于Transformer的关键点定位

摘要

尽管基于卷积神经网络(CNN)的模型在人体姿态估计任务上取得了显著进展,但其在定位关键点时所捕捉的空间依赖关系仍不明确。本文提出了一种名为 \textbf{TransPose} 的新模型,首次将 Transformer 架构引入人体姿态估计任务。Transformer 中内置的注意力机制使模型能够高效捕捉长距离依赖关系,同时还能揭示预测关键点所依赖的具体空间关系。为生成关键点热图,模型最后一层注意力机制充当聚合器,整合来自图像的多源线索,并定位热图中的峰值位置。这种基于 Transformer 的热图定位方式遵循了激活最大化(Activation Maximization)的基本原理~\cite{erhan2009visualizing}。所揭示的依赖关系具有高度图像特异性与细粒度特征,能够为模型处理特殊情形(如遮挡)提供可解释性证据。实验结果表明,TransPose 在 COCO 验证集和测试集(test-dev)上分别取得了 75.8 AP 和 75.0 AP 的性能表现,同时在模型轻量化和推理速度方面优于主流 CNN 架构。此外,TransPose 在 MPII 基准测试上也展现出优异的迁移能力,仅需少量微调即可在测试集上达到领先性能。代码与预训练模型已公开发布\footnote{\url{https://github.com/yangsenius/TransPose}}。

代码仓库

yangsenius/TransPose
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
keypoint-detection-on-cocoTransPose(256x192)
Test AP: 75.0
Validation AP: 75.8
multi-person-pose-estimation-on-crowdposeTransPose-H
AP Easy: 79.5
AP Hard: 62.2
AP Medium: 72.9
mAP @0.5:0.95: 71.8
multi-person-pose-estimation-on-ochumanTransPose-H
AP50: 82.7
AP75: 67.1
pose-estimation-on-coco-test-devTransPose-H-A6
AP: 75
AP50: 92.2
AP75: 82.3
APL: 81.1
APM: 71.3
pose-estimation-on-mpii-human-poseTransPose
PCKh-0.5: 93.5
pose-estimation-on-ochumanTransPose-H
Validation AP: 62.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TransPose:基于Transformer的关键点定位 | 论文 | HyperAI超神经