3 个月前

DeepFuse:一种面向多视角图像实时三维人体姿态估计的惯性测量单元感知网络

DeepFuse:一种面向多视角图像实时三维人体姿态估计的惯性测量单元感知网络

摘要

本文提出了一种两阶段全三维网络结构,命名为 DeepFuse,通过深度融合可穿戴惯性测量单元(IMU)数据与多视角图像,实现对人体三维姿态的精确估计。第一阶段专注于纯视觉姿态估计,为保留多视角输入数据的原始特性,该视觉阶段采用多通道体素(multi-channel volume)作为数据表示形式,并引入三维软最大值(3D soft-argmax)作为激活层。第二阶段为IMU精修阶段,创新性地设计了IMU-骨骼层(IMU-bone layer),在数据层面更早地实现IMU与视觉信息的融合。该方法无需预先给定骨骼模型,即可在TotalCapture数据集上达到28.9 mm的平均关节点误差,在Human3.6M数据集上(按协议1评估)达到13.4 mm的平均关节点误差,显著超越当前最优(SOTA)性能。最后,本文通过实验验证了全三维网络在三维姿态估计任务中的有效性,为后续相关研究提供了有益启示。

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mDeepFuse
Average MPJPE (mm): 37.5
Multi-View or Monocular: Multi-View
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-total-captureDeepFuse-IMU
Average MPJPE (mm): 28.9
3d-human-pose-estimation-on-total-captureDeepFuse-Vision Only
Average MPJPE (mm): 32.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeepFuse:一种面向多视角图像实时三维人体姿态估计的惯性测量单元感知网络 | 论文 | HyperAI超神经