HyperAIHyperAI

Command Palette

Search for a command to run...

LLMs 是优秀的动作识别器

Haoxuan Qu Yujun Cai Jun Liu

摘要

基于骨架的动作识别近年来受到广泛关注。为构建高精度的骨架动作识别模型,研究者们提出了多种方法。其中,部分方法采用大规模模型架构作为识别器的主干网络,以增强对骨架数据的表征能力;另一些方法则通过在外部数据上进行预训练,以丰富模型的知识。本文观察到,广泛应用于各类自然语言处理任务的大语言模型(Large Language Models, LLMs)通常兼具大规模模型架构与丰富的隐式知识。受此启发,我们提出了一种新颖的LLM-AR框架,探索将大语言模型直接用作动作识别器的可行性。在该框架中,我们设计了一种语言投影机制,将每个输入的动作信号(即骨架序列)映射为“句子格式”(即“动作语句”)。此外,我们还引入多项设计以进一步优化该语言投影过程。大量实验结果验证了所提框架的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LLMs 是优秀的动作识别器 | 论文 | HyperAI超神经