PaceCesare Davide ; De NunzioAlessandro Marco ; De StefanoClaudio ; FontanellaFrancesco ; MolinaraMario

摘要
人体姿态估计是计算机视觉中的一个重要任务,涉及在图像和视频中检测和定位人体关节。尽管单帧姿态估计已经取得了显著进展,但其通常无法捕捉时间动态,从而难以理解复杂的连续动作。为此,我们提出了一种名为Poseidon的新颖多帧姿态估计架构,该架构通过整合时间信息扩展了ViTPose模型,以提高准确性和鲁棒性,解决上述局限性。Poseidon引入了几个关键创新点:(1)自适应帧加权(Adaptive Frame Weighting, AFW)机制,该机制根据帧的相关性动态地赋予不同权重,确保模型专注于最具信息量的数据;(2)多尺度特征融合(Multi-Scale Feature Fusion, MSFF)模块,该模块从不同的骨干层聚合特征,以捕捉细粒度细节和高层次语义;(3)交叉注意力(Cross-Attention)模块,用于中央帧和上下文帧之间有效交换信息,增强模型的时间连贯性。所提出的架构在复杂视频场景中提高了性能,并且具有可扩展性和计算效率,适用于实际应用。我们的方法在PoseTrack21和PoseTrack18数据集上实现了最先进的性能,分别达到了88.3和87.8的mAP分数,优于现有方法。
代码仓库
CesareDavidePace/poseidon
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-human-pose-estimation-on-jhmdb-2d-poses | Poseidon | PCK: 97.3 |
| multi-person-pose-estimation-on-posetrack2018 | Poseidon | Mean mAP: 87.8 |
| multi-person-pose-estimation-on-posetrack21-1 | Poseidon | Mean mAP: 88.3 |