3 个月前

自然语言辅助的手语识别

自然语言辅助的手语识别

摘要

手语是一种视觉语言,通过手势形状、面部表情、身体动作等多种视觉元素传递信息。由于这些视觉成分的组合存在固有局限性,手语中存在大量视觉上难以区分的手势(即VISigns),这严重制约了视觉神经网络对手语的识别能力。为缓解该问题,本文提出一种自然语言辅助的手语识别框架(NLA-SLR),充分利用词素(gloss,即手语标注)所蕴含的语义信息。首先,针对语义相近的VISigns,我们提出一种语言感知的标签平滑方法:为每个训练样本生成软标签,其平滑权重基于词素之间的归一化语义相似度计算,从而缓解训练过程中的混淆问题。其次,针对语义差异较大的VISigns,我们设计了一种跨模态Mixup技术,将视觉特征与词素特征进行融合,并在融合标签的监督下,进一步增强不同手势之间的可分性。此外,我们还引入一种新型骨干网络——视频关键点网络(video-keypoint network),该网络不仅能联合建模RGB视频与人体关键点信息,还能从具有不同时间感受野的手语视频中提取并迁移知识。实验结果表明,所提方法在三个广泛使用的手语识别基准数据集(MSASL、WLASL和NMFs-CSL)上均取得了当前最优性能。代码已开源,地址为:https://github.com/FangyunWei/SLRT。

代码仓库

FangyunWei/SLRT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-recognition-on-wlasl-2000NLA-SLR
Top-1 Accuracy: 61.26

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自然语言辅助的手语识别 | 论文 | HyperAI超神经