6 个月前

自然语言处理

自然语言处理

计算机视觉

Haoxuan Qu Yujun Cai Jun Liu

摘要

基于骨架的动作识别近年来受到广泛关注。为构建高精度的骨架动作识别模型，研究者们提出了多种方法。其中，部分方法采用大规模模型架构作为识别器的主干网络，以增强对骨架数据的表征能力；另一些方法则通过在外部数据上进行预训练，以丰富模型的知识。本文观察到，广泛应用于各类自然语言处理任务的大语言模型（Large Language Models, LLMs）通常兼具大规模模型架构与丰富的隐式知识。受此启发，我们提出了一种新颖的LLM-AR框架，探索将大语言模型直接用作动作识别器的可行性。在该框架中，我们设计了一种语言投影机制，将每个输入的动作信号（即骨架序列）映射为“句子格式”（即“动作语句”）。此外，我们还引入多项设计以进一步优化该语言投影过程。大量实验结果验证了所提框架的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

计算机视觉

Haoxuan Qu Yujun Cai Jun Liu

摘要

基于骨架的动作识别近年来受到广泛关注。为构建高精度的骨架动作识别模型，研究者们提出了多种方法。其中，部分方法采用大规模模型架构作为识别器的主干网络，以增强对骨架数据的表征能力；另一些方法则通过在外部数据上进行预训练，以丰富模型的知识。本文观察到，广泛应用于各类自然语言处理任务的大语言模型（Large Language Models, LLMs）通常兼具大规模模型架构与丰富的隐式知识。受此启发，我们提出了一种新颖的LLM-AR框架，探索将大语言模型直接用作动作识别器的可行性。在该框架中，我们设计了一种语言投影机制，将每个输入的动作信号（即骨架序列）映射为“句子格式”（即“动作语句”）。此外，我们还引入多项设计以进一步优化该语言投影过程。大量实验结果验证了所提框架的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供