3 个月前

基于可变形3D卷积与调制图卷积网络的手语识别

基于可变形3D卷积与调制图卷积网络的手语识别

摘要

自动手语识别(SLR)仍面临诸多挑战,尤其是在仅使用RGB视频(即不依赖深度信息或专用手套输入)且在签名者无关(Signer-Independent, SI)框架下,这主要由于不同个体之间手语表达存在显著差异。本文针对基于RGB视频的SI孤立手语识别问题,提出了一种创新的深度学习框架,该框架融合了多模态外观信息与基于骨骼的信息。具体而言,本文在手语识别领域首次提出三个关键组件:(i)对ResNet2+1D网络进行改进,用于捕捉手语外观特征,其中将传统的空间与时间卷积替换为可变形卷积,从而兼具广泛的空间建模能力与对运动变化的自适应建模特性;(ii)提出一种新型时空图卷积网络(ST-GCN),其基于图卷积网络(GCN)的变体,引入权重与亲和力调制机制,以建模人体不同关节之间超出真实人体骨骼结构的多样化关联关系,随后结合自注意力层与时间卷积模块;(iii)采用“PIXIE”三维人体姿态与形状回归器,生成用于ST-GCN图结构构建的三维关节旋转参数化表示。所提出的系统将外观特征流与骨骼特征流进行融合,并在两个孤立手语数据集上进行了评估,分别对应土耳其语和希腊语手语。实验结果表明,该系统在希腊语数据集上超越了当前最先进方法,相对误差率降低达53%(绝对误差降低至2.45%);在土耳其语数据集上,性能与现有最优系统持平。

基准测试

基准方法指标
sign-language-recognition-on-autsl3D-DCNN + ST-MGCN
Rank-1 Recognition Rate: 0.9842
sign-language-recognition-on-gsl3D-DCNN + ST-MGCN
Rank-1 Recognition Rate: 0.9785

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于可变形3D卷积与调制图卷积网络的手语识别 | 论文 | HyperAI超神经