3 个月前

LLMs 是优秀的动作识别器

LLMs 是优秀的动作识别器

摘要

基于骨架的动作识别近年来受到广泛关注。为构建高精度的骨架动作识别模型,研究者们提出了多种方法。其中,部分方法采用大规模模型架构作为识别器的主干网络,以增强对骨架数据的表征能力;另一些方法则通过在外部数据上进行预训练,以丰富模型的知识。本文观察到,广泛应用于各类自然语言处理任务的大语言模型(Large Language Models, LLMs)通常兼具大规模模型架构与丰富的隐式知识。受此启发,我们提出了一种新颖的LLM-AR框架,探索将大语言模型直接用作动作识别器的可行性。在该框架中,我们设计了一种语言投影机制,将每个输入的动作信号(即骨架序列)映射为“句子格式”(即“动作语句”)。此外,我们还引入多项设计以进一步优化该语言投影过程。大量实验结果验证了所提框架的有效性。

基准测试

基准方法指标
skeleton-based-action-recognition-on-ntu-rgbdLit-llama
Accuracy (CS): 95
Accuracy (CV): 98.4
skeleton-based-action-recognition-on-ntu-rgbd-1Lit-llama
Accuracy (Cross-Setup): 91.5
Accuracy (Cross-Subject): 88.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LLMs 是优秀的动作识别器 | 论文 | HyperAI超神经