
摘要
我们提出了一种从单张图像和单目视频中恢复三维人体网格的端到端方法。与现有方法试图从单一耦合特征中获取所有复杂的三维姿态、形状和相机参数不同,我们提出了一种基于骨架解耦的框架,该框架以解耦的方式将此任务划分为多级空间和时间粒度。在空间上,我们设计了一个有效且可插拔的“从细节中解耦骨架”(DSD)模块。该模块降低了复杂度并解耦了骨架,为时间建模奠定了良好的基础。在时间上,提出了基于自注意力机制的时间卷积网络,能够高效地利用短期和长期的时间线索。此外,还设计了一种无监督对抗训练策略——时间打乱和顺序恢复,以促进运动动力学的学习。实验结果表明,所提出的 方法在Human3.6M数据集上的MPJPE指标比当前最先进的三维人体网格恢复方法提高了15.4%,PA-MPJPE指标提高了23.8%。在无需任何微调的情况下,该方法还在3D姿态野外(3DPW)数据集上取得了最先进水平的结果。特别是消融研究证明了骨架解耦表示对于更好的时间建模和泛化能力至关重要。
代码仓库
JDAI-CV/DSD-SATN
pytorch
GitHub 中提及
Arthur151/DSD-SATN
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | DSD-SATN | PA-MPJPE: 69.5 |
| 3d-human-pose-estimation-on-human36m | DSD+SATN | Acceleration Error: 6.8 Average MPJPE (mm): 59.1 PA-MPJPE: 42.4 |