
摘要
我们提出利用Transformer架构实现非自回归(non-autoregressive)的人体运动预测。与当前主流的基于RNN的方法依赖于先前预测结果进行逐步生成不同,我们的方法通过并行解码查询序列中的元素来生成运动序列,从而显著降低计算复杂度,并有效避免长序列中误差累积的问题。在此框架下,本文的贡献主要体现在四个方面:(i)将人体运动预测建模为序列到序列(sequence-to-sequence)问题,提出一种非自回归Transformer模型,实现姿态序列的并行推断;(ii)提出从预先生成的查询序列中解码三维姿态序列,该查询序列由输入序列中的元素构成;(iii)提出基于编码器记忆(encoder memory)进行骨骼结构驱动的动作分类,旨在通过识别动作类型来提升预测性能;(iv)实验表明,尽管模型结构简洁,但在两个公开数据集上均取得了具有竞争力的性能表现,尤其在短期预测任务中表现尤为突出,这一结果出人意料地优于长期预测。
代码仓库
idiap/potr
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| classification-on-full-body-parkinsons | Pose Transformers (POTR) | F1-score (weighted): 0.46 |