3 个月前

基于多模态协同学习的高效骨架动作识别

基于多模态协同学习的高效骨架动作识别

摘要

基于骨骼的动作识别因其采用简洁且鲁棒的骨骼数据而受到广泛关注。然而,骨骼本身缺乏详细的体态信息,限制了模型性能;而其他多模态方法则通常需要大量的推理资源,在训练与推理阶段使用多模态数据时效率较低。为解决上述问题并充分挖掘多模态特征之间的互补性,本文提出一种新型的多模态协同学习(Multi-Modality Co-Learning, MMCL)框架。该框架利用多模态大语言模型(Multimodal Large Language Models, LLMs)作为辅助网络,实现高效的动作识别:在训练阶段进行多模态协同学习,而在推理阶段仅依赖简洁的骨骼数据,从而保持高效性。本MMCL框架主要由两个核心模块构成。首先,特征对齐模块(Feature Alignment Module, FAM)从视频帧中提取丰富的RGB特征,并通过对比学习将这些特征与全局骨骼特征进行对齐,以增强模态间的一致性。其次,特征精炼模块(Feature Refinement Module, FRM)结合带有时间信息的RGB图像与文本指令,借助多模态大语言模型强大的泛化能力,生成具有指导意义的文本特征。这些生成的文本特征进一步用于优化分类得分,其作用类似于软标签(soft labels),显著提升了模型的鲁棒性与泛化能力。在NTU RGB+D、NTU RGB+D 120以及Northwestern-UCLA等多个基准数据集上的大量实验结果一致验证了MMCL框架的有效性,其性能超越了现有的各类基于骨骼的动作识别方法。此外,在UTD-MHAD与SYSU-Action数据集上的零样本(zero-shot)与领域自适应(domain-adaptive)动作识别实验也充分展示了MMCL出色的泛化能力。本工作的代码已公开,访问地址为:https://github.com/liujf69/MMCL-Action。

代码仓库

liujf69/MMCL-Action
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
skeleton-based-action-recognition-on-n-uclaMMCL
Accuracy: 97.5
skeleton-based-action-recognition-on-ntu-rgbdMMCL
Accuracy (CS): 93.5
Accuracy (CV): 97.4
Ensembled Modalities: 6
skeleton-based-action-recognition-on-ntu-rgbd-1MMCL
Accuracy (Cross-Setup): 91.7
Accuracy (Cross-Subject): 90.3
Ensembled Modalities: 6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于多模态协同学习的高效骨架动作识别 | 论文 | HyperAI超神经