6 个月前

摘要

给定一段视频或骨骼数据的时间序列，动作识别系统通常利用运动、外观和姿态等线索进行分类。在过去十年中，动作建模主要依赖于低层特征表示，例如“特征袋”（Bag of Features）。近年来的研究表明，中层特征——即对身体部位运动（如“手向前移动”）进行建模的特征）——具有极高的有效性。然而，这些中层特征通常为人工设计，其代表性特征字典也往往通过启发式方法学习得到。尽管诸如监督稀疏字典学习或神经网络等自动特征学习方法可被用于联合学习特征表示与动作分类器，但所得到的特征通常缺乏可解释性。相比之下，本文的目标是构建一个原理性（principled）的特征学习框架，以学习具有判别性且可解释的骨骼运动模式，用于动作识别。为此，我们提出了一种新型基于身体部位运动的特征——运动姿态单元（Moving Poselet），它对应于某一特定身体部位配置在经历特定运动过程中的动态状态。同时，我们设计了一种简洁的算法，用于联合学习Moving Poselet与动作分类器。在MSR Action3D、MSR DailyActivity3D以及Berkeley MHAD等多个数据集上的实验结果表明，我们提出的两层模型在性能上优于采用人工设计特征的其他两层模型，并达到了与近期多层分层循环神经网络（Hierarchical Recurrent Neural Network, HRNN）模型相当的识别效果。后者通过多层循环神经网络对人体层级结构进行建模，展现出强大的建模能力。

源 PDF