3 个月前

一种用于运动合成的统一掩码自编码器及其块化骨架结构

一种用于运动合成的统一掩码自编码器及其块化骨架结构

摘要

人体动作合成传统上依赖于任务特定的模型,这些模型专注于解决特定挑战,例如预测未来动作或根据已知关键姿态填补中间姿态。本文提出了一种全新的任务无关模型——UNIMASK-M,该模型采用统一的架构,能够有效应对上述各类挑战。在各项任务中,该模型的性能均达到或超越当前最先进水平。受视觉Transformer(Vision Transformers, ViTs)的启发,UNIMASK-M将人体姿态分解为多个身体部位,以充分捕捉人体运动中固有的时空关系。此外,我们将多种基于姿态条件的动作合成任务重新建模为一种带有不同掩码模式输入的重建问题。通过显式地向模型提供被掩码关节点的信息,UNIMASK-M在应对遮挡情况时表现出更强的鲁棒性。实验结果表明,该模型在Human3.6M数据集上成功实现了对人体动作的准确预测;同时,在LaFAN1数据集上的动作插值任务中取得了当前最优性能,尤其在长过渡时段的表现尤为突出。更多项目详情请访问项目主页:https://evm7.github.io/UNIMASKM-page/

基准测试

基准方法指标
human-pose-forecasting-on-human36mUNIMASK-M
Average MPJPE (mm) @ 1000 ms: 112.1
Average MPJPE (mm) @ 400ms: 61.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于运动合成的统一掩码自编码器及其块化骨架结构 | 论文 | HyperAI超神经