
摘要
近期,基于Transformer的方法在顺序2D到3D人体姿态估计中取得了显著成功。作为开创性工作,PoseFormer通过级联的Transformer层捕捉每个视频帧中的人体关节空间关系以及跨帧的人体动态,实现了令人印象深刻的效果。然而,在实际场景中,PoseFormer及其后续方法的性能受到两个因素的限制:(a) 输入关节序列的长度;(b) 2D关节检测的质量。现有方法通常对输入序列的所有帧应用自注意力机制,当增加帧数以获得更高的估计精度时,会导致巨大的计算负担,并且它们对2D关节检测器有限能力自然带来的噪声不够鲁棒。本文提出了一种改进方法——PoseFormerV2,该方法利用频率域中的紧凑表示来高效扩展感受野并增强对噪声2D关节检测的鲁棒性。通过对PoseFormer进行最小修改,所提出的方法有效融合了时间域和频率域的特征,相比其前身在速度和精度之间取得了更好的平衡。在两个基准数据集(即Human3.6M和MPI-INF-3DHP)上的大量实验表明,所提出的算法显著优于原始PoseFormer及其他基于Transformer的变体。代码已发布于\url{https://github.com/QitaoZhao/PoseFormerV2}。
代码仓库
zczcwh/DL-HPE
GitHub 中提及
qitaozhao/poseformerv2
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | PoseFormerV2 (f=27, T=243) | Average MPJPE (mm): 45.2 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | PoseFormerV2 (T=81) | AUC: 78.8 MPJPE: 27.8 PCK: 97.9 |
| classification-on-full-body-parkinsons | PoseFormerV2 | F1-score (weighted): 0.59 |