3 个月前

基于教师-学生网络的多模态融合用于室内动作识别

基于教师-学生网络的多模态融合用于室内动作识别

摘要

室内动作识别在现代社会中扮演着重要角色,例如在大型移动方舱医院中的智能医疗应用。随着Kinect等深度传感器的广泛应用,融合骨骼关节点信息与RGB图像模态的多模态信息,为提升识别性能提供了极具前景的途径。然而,现有方法往往仅关注单一数据模态,或未能有效利用多模态数据的优势。为此,本文提出一种教师-学生多模态融合(Teacher-Student Multimodal Fusion, TSMF)模型,该模型在模型层面实现骨骼模态与RGB模态的深度融合,用于室内动作识别任务。在TSMF框架中,我们设计一个教师网络,将骨骼模态的结构化知识迁移至针对RGB模态的Student网络中。在两个基准数据集NTU RGB+D和PKU-MMD上的大量实验结果表明,所提出的TSMF模型在性能上始终优于当前最先进的单模态与多模态方法。实验结果还表明,该方法不仅能有效提升学生网络的识别准确率,还能显著增强集成模型的整体性能。

基准测试

基准方法指标
action-recognition-in-videos-on-ntu-rgbdTSMF (RGB + Pose)
Accuracy (CS): 92.5
Accuracy (CV): 97.4
action-recognition-in-videos-on-pku-mmdTSMF
X-Sub: 95.8
X-View: 97.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供