
摘要
基于骨架的动作识别近年来受到广泛关注。为构建高精度的骨架动作识别模型,研究者们提出了多种方法。其中,部分方法采用大规模模型架构作为识别器的主干网络,以增强对骨架数据的表征能力;另一些方法则通过在外部数据上进行预训练,以丰富模型的知识。本文观察到,广泛应用于各类自然语言处理任务的大语言模型(Large Language Models, LLMs)通常兼具大规模模型架构与丰富的隐式知识。受此启发,我们提出了一种新颖的LLM-AR框架,探索将大语言模型直接用作动作识别器的可行性。在该框架中,我们设计了一种语言投影机制,将每个输入的动作信号(即骨架序列)映射为“句子格式”(即“动作语句”)。此外,我们还引入多项设计以进一步优化该语言投影过程。大量实验结果验证了所提框架的有效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-ntu-rgbd | Lit-llama | Accuracy (CS): 95 Accuracy (CV): 98.4 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | Lit-llama | Accuracy (Cross-Setup): 91.5 Accuracy (Cross-Subject): 88.7 |