3 个月前

IVT:一种面向3D姿态估计的端到端实例引导视频Transformer

IVT:一种面向3D姿态估计的端到端实例引导视频Transformer

摘要

视频3D人体姿态估计旨在从视频序列中定位人体关节的三维坐标。近年来,基于Transformer的方法主要关注从连续的2D姿态序列中捕捉时空信息,但由于2D姿态估计过程中视觉深度特征的丢失,这类方法难以有效建模上下文深度信息。为此,本文提出一种简化的端到端框架——实例引导视频Transformer(Instance-guided Video Transformer, IVT),能够直接从视频帧中有效学习时空上下文深度信息,并实现3D姿态的直接预测。具体而言,本文首先将视频帧建模为一系列实例引导的令牌(tokens),每个令牌负责预测某一人体实例的3D姿态。这些令牌通过人体中心到各关节的偏移量进行引导而提取,因而天然包含了人体结构信息。随后,这些令牌被输入至IVT网络中,以学习其时空上下文深度特征。此外,本文提出一种跨尺度实例引导注意力机制,以有效处理多人场景中不同个体尺度差异的问题。最后,通过坐标回归方式,从实例引导的令牌中解码出每个人的3D姿态。在三个广泛使用的3D姿态估计基准数据集上的实验结果表明,所提出的IVT方法在性能上达到了当前最优水平,显著提升了视频3D人体姿态估计的准确性与鲁棒性。

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwIVT (f=5)
PA-MPJPE: 46
3d-human-pose-estimation-on-human36mIVT (f=5)
Average MPJPE (mm): 40.2
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-multi-person-pose-estimation-on-cmuIVT (f=5)
Average MPJPE (mm): 48.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
IVT:一种面向3D姿态估计的端到端实例引导视频Transformer | 论文 | HyperAI超神经