
摘要
本文提出了一种两阶段全三维网络结构,命名为 DeepFuse,通过深度融合可穿戴惯性测量单元(IMU)数据与多视角图像,实现对人体三维姿态的精确估计。第一阶段专注于纯视觉姿态估计,为保留多视角输入数据的原始特性,该视觉阶段采用多通道体素(multi-channel volume)作为数据表示形式,并引入三维软最大值(3D soft-argmax)作为激活层。第二阶段为IMU精修阶段,创新性地设计了IMU-骨骼层(IMU-bone layer),在数据层面更早地实现IMU与视觉信息的融合。该方法无需预先给定骨骼模型,即可在TotalCapture数据集上达到28.9 mm的平均关节点误差,在Human3.6M数据集上(按协议1评估)达到13.4 mm的平均关节点误差,显著超越当前最优(SOTA)性能。最后,本文通过实验验证了全三维网络在三维姿态估计任务中的有效性,为后续相关研究提供了有益启示。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | DeepFuse | Average MPJPE (mm): 37.5 Multi-View or Monocular: Multi-View Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-total-capture | DeepFuse-IMU | Average MPJPE (mm): 28.9 |
| 3d-human-pose-estimation-on-total-capture | DeepFuse-Vision Only | Average MPJPE (mm): 32.7 |