
摘要
人体网格恢复(Human Mesh Recovery, HMR)为众多现实应用场景提供了丰富的三维人体信息。尽管基于图像的HMR方法已取得显著进展,但在动态场景下往往难以准确重建人体,导致时间上不一致以及三维运动预测不平滑,其根源在于缺乏对人体运动的建模。相比之下,基于视频的方法通过利用时序信息有效缓解了这一问题。本文提出了一种创新的、具有运动感知能力的类扩散框架——DiffMesh,用于视频驱动的人体网格恢复。DiffMesh在扩散模型的前向过程与反向过程中引入人体运动先验,建立起扩散模型与人体运动之间的桥梁,从而高效生成准确且平滑的三维网格序列。我们在广泛使用的数据集(Human3.6M \cite{h36m_pami} 和 3DPW \cite{pw3d2018})上进行了大量实验,结果充分验证了DiffMesh在性能与效率方面的优越性。在真实场景下的可视化对比进一步表明,DiffMesh具备良好的实用潜力,适用于实际应用。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | DDT | Acceleration Error: 6.6 MPJPE: 85.9 MPVPE: 101.2 PA-MPJPE: 53.3 |
| 3d-human-pose-estimation-on-human36m | DDT | Acceleration Error: 3.3 Average MPJPE (mm): 73.1 PA-MPJPE: 48.6 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | DDT | Acceleration Error: 8.2 MPJPE: 97.8 PA-MPJPE: 65.4 |