3 个月前

TesseTrack:端到端可学习的多人关节三维姿态跟踪

TesseTrack:端到端可学习的多人关节三维姿态跟踪

摘要

我们研究的是在任意数量摄像头画面中对多人进行三维姿态估计与跟踪的任务。为此,我们提出了一种名为TesseTrack的新方法,这是一种创新的自顶向下范式,能够在单一端到端可学习的框架中,同时推理多个个体在时空维度上的三维身体关节重建及其关联关系。本方法的核心在于一种新颖的时空建模方式,该方式在由单视角或多视角聚合而成的统一体素化特征空间中运行。在完成人体检测后,一个四维卷积神经网络(4D CNN)生成短期的人体特定表征,随后通过一个可微分的匹配器将这些表征在时间维度上进行关联。关联后的描述信息被进一步融合并反卷积为三维姿态。这种联合的时空建模方式有别于以往分步处理的策略,后者通常将二维姿态估计、二维到三维的提升(2D-to-3D lifting)以及三维姿态跟踪视为彼此独立的子问题,而这些子问题若孤立求解则极易引入累积误差。此外,与以往方法不同,TesseTrack对摄像头数量的变化具有良好的鲁棒性,即使在推理阶段仅提供单一视角图像,也能取得优异的性能表现。在标准基准数据集上的定量评估表明,TesseTrack在三维姿态重建精度方面显著优于当前最先进的方法。在我们提出的新型评估框架下,对多人刚性结构三维姿态跟踪的测试进一步验证了TesseTrack相较于强基准方法的优越性。

基准测试

基准方法指标
3d-human-pose-estimation-on-cmu-panopticTesseTrack Multi-View (5 views)
Average MPJPE (mm): 7.3
3d-human-pose-estimation-on-cmu-panopticTesseTrack Monocular
Average MPJPE (mm): 18.9
3d-human-pose-estimation-on-human36mTesseTrack (Monocular)
Average MPJPE (mm): 44.6
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mTesseTrack (Multi-View)
Average MPJPE (mm): 18.7
Multi-View or Monocular: Multi-View
Using 2D ground-truth joints: No
3d-human-pose-tracking-on-cmu-panopticTesseTrack
3DMOTA: 94.1
3d-multi-person-pose-estimation-on-campusTesseTrack
PCP3D: 97.4
3d-multi-person-pose-estimation-on-cmuTesseTrack
Average MPJPE (mm): 7.3
3d-multi-person-pose-estimation-on-shelfTesseTrack (paper)
PCP3D: 98.2
3d-multi-person-pose-estimation-on-shelfTesseTrack (correct)
PCP3D: 97.9
3d-pose-estimation-on-human3-6mTesseTrack
Average MPJPE (mm): 18.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TesseTrack:端到端可学习的多人关节三维姿态跟踪 | 论文 | HyperAI超神经