4 个月前

PoseFormerV2:探索频域以实现高效且鲁棒的3D人体姿态估计

PoseFormerV2:探索频域以实现高效且鲁棒的3D人体姿态估计

摘要

近期,基于Transformer的方法在顺序2D到3D人体姿态估计中取得了显著成功。作为开创性工作,PoseFormer通过级联的Transformer层捕捉每个视频帧中的人体关节空间关系以及跨帧的人体动态,实现了令人印象深刻的效果。然而,在实际场景中,PoseFormer及其后续方法的性能受到两个因素的限制:(a) 输入关节序列的长度;(b) 2D关节检测的质量。现有方法通常对输入序列的所有帧应用自注意力机制,当增加帧数以获得更高的估计精度时,会导致巨大的计算负担,并且它们对2D关节检测器有限能力自然带来的噪声不够鲁棒。本文提出了一种改进方法——PoseFormerV2,该方法利用频率域中的紧凑表示来高效扩展感受野并增强对噪声2D关节检测的鲁棒性。通过对PoseFormer进行最小修改,所提出的方法有效融合了时间域和频率域的特征,相比其前身在速度和精度之间取得了更好的平衡。在两个基准数据集(即Human3.6M和MPI-INF-3DHP)上的大量实验表明,所提出的算法显著优于原始PoseFormer及其他基于Transformer的变体。代码已发布于\url{https://github.com/QitaoZhao/PoseFormerV2}。

代码仓库

zczcwh/DL-HPE
GitHub 中提及
qitaozhao/poseformerv2
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mPoseFormerV2 (f=27, T=243)
Average MPJPE (mm): 45.2
3d-human-pose-estimation-on-mpi-inf-3dhpPoseFormerV2 (T=81)
AUC: 78.8
MPJPE: 27.8
PCK: 97.9
classification-on-full-body-parkinsonsPoseFormerV2
F1-score (weighted): 0.59

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PoseFormerV2:探索频域以实现高效且鲁棒的3D人体姿态估计 | 论文 | HyperAI超神经