HyperAIHyperAI

Command Palette

Search for a command to run...

MixSTE:用于视频中3D人体姿态估计的混合时空编码器

Jinlu Zhang Zhigang Tu Jianyu Yang Yujin Chen Junsong Yuan

摘要

近期,基于 Transformer (Transformer)的解决方案被引入用于从2D关键点序列中估计3D人体姿态。这些方法通过全局考虑所有帧中的身体关节来学习时空相关性。我们观察到不同关节的运动差异显著。然而,先前的方法无法高效地建模每个关节在帧间的固有对应关系,导致对时空相关性的学习不足。为此,我们提出了一种混合时空编码器(MixSTE),该编码器包含一个时间 Transformer 模块,用于分别建模每个关节的时间运动;以及一个空间 Transformer 模块,用于学习关节之间的空间相关性。这两个模块交替使用,以获得更好的时空特征编码效果。此外,网络输出从中心帧扩展到了输入视频的所有帧,从而提高了输入和输出序列之间的一致性。我们在三个基准数据集(Human3.6M、MPI-INF-3DHP 和 HumanEva)上进行了广泛的实验。实验结果表明,我们的模型在P-MPJPE指标上比现有最佳方法提高了10.9%,在MPJPE指标上提高了7.6%。代码已发布在 https://github.com/JinluZhang1126/MixSTE


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MixSTE:用于视频中3D人体姿态估计的混合时空编码器 | 论文 | HyperAI超神经