3 个月前

全捕捉:融合视频与惯性传感器的三维人体姿态估计

全捕捉:融合视频与惯性传感器的三维人体姿态估计

摘要

我们提出一种算法,用于融合多视角视频(Multi-Viewpoint Video, MVV)与惯性测量单元(Inertial Measurement Unit, IMU)传感器数据,以精确估计三维人体姿态。该算法采用三维卷积神经网络(3-D Convolutional Neural Network),从由MVV帧生成的体素化概率视觉外壳数据(Probabilistic Visual Hull, PVH)中学习姿态嵌入表示。我们将该模型嵌入到一个双流网络架构中,该架构融合了来自MVV的姿态嵌入以及基于IMU数据的前向运动学解算结果。在两路特征融合之前,分别在每条流中引入了时间建模模块(LSTM),以捕捉时序动态特性。实验表明,通过融合这两种互补的数据源进行混合姿态推断,能够有效消除单一传感器模态中的歧义性,显著提升姿态估计的准确性,优于以往方法。本工作的另一重要贡献是构建了一个新的混合式MVV数据集——TotalCapture,该数据集包含视频序列、IMU数据以及由商用动作捕捉系统生成的骨骼关节真值标注。该数据集已公开发布,可在线访问:http://cvssp.org/data/totalcapture/

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mPVH-TSP
Average MPJPE (mm): 57.0
3d-human-pose-estimation-on-total-captureIMUPVH
Average MPJPE (mm): 70
3d-human-pose-estimation-on-total-capturePVH
Average MPJPE (mm): 107

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
全捕捉:融合视频与惯性传感器的三维人体姿态估计 | 论文 | HyperAI超神经