3 个月前

人体姿态作为组合性Token

人体姿态作为组合性Token

摘要

人体姿态通常以关节坐标向量或其热图嵌入(heatmap embeddings)的形式进行表示。尽管这种表示方式便于数据处理,但由于缺乏对身体关节之间依赖关系的建模,往往会产生不切实际的姿态估计结果。本文提出一种结构化表示方法,命名为“姿态作为组合令牌”(Pose as Compositional Tokens, PCT),用于探索关节间的依赖关系。该方法将一个姿态表示为 M 个离散的令牌(tokens),每个令牌表征一个包含多个相互依赖关节的子结构。这种组合式设计使得模型能够在较低计算成本下实现较小的重构误差。随后,我们将姿态估计问题转化为分类任务:具体而言,训练一个分类器,从图像中预测 M 个令牌的类别。利用预先训练好的解码网络,可直接从令牌恢复出完整姿态,无需后续后处理。实验结果表明,该方法在一般场景下能够达到优于或与现有方法相当的姿态估计性能,且在存在遮挡的情况下仍能保持良好表现——而遮挡在实际应用中极为常见。相关代码与模型已公开发布于 https://github.com/Gengzigang/PCT。

代码仓库

gengzigang/pct
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
pose-estimation-on-coco-test-devPCT (256x256)
AP: 78.3
AP50: 92.9
AP75: 85.9
pose-estimation-on-mpii-human-posePCT (swin-l, test set)
PCKh-0.5: 94.3
pose-estimation-on-mpii-human-posePCT (swin-b, test set)
PCKh-0.5: 93.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
人体姿态作为组合性Token | 论文 | HyperAI超神经