3 个月前

上下文至关重要:用于手语识别的自注意力机制

上下文至关重要:用于手语识别的自注意力机制

摘要

本文提出了一种用于连续手语识别任务的注意力网络。所提出的方法利用相互独立的数据流来建模手语的多种模态,这些不同信息通道之间能够共享复杂的时序结构。为此,我们引入注意力机制以实现同步,并帮助捕捉不同手语成分之间的耦合依赖关系。尽管手语具有多通道特性,但手势形态在手语理解中占据核心地位。只有在正确语境中识别出手势形态,才能准确理解一个手语的含义。基于此,我们采用注意力机制,高效地聚合手势特征及其相应的时空上下文信息,从而提升手语识别性能。实验结果表明,该模型能够有效识别围绕主导手部及面部区域的关键手语成分。我们在基准数据集RWTH-PHOENIX-Weather 2014上对模型进行了测试,取得了具有竞争力的识别效果。

代码仓库

faresbs/slrt
官方
pytorch
GitHub 中提及
faresbs/san
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-recognition-on-rwth-phoenixSAN
Word Error Rate (WER): 29.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
上下文至关重要:用于手语识别的自注意力机制 | 论文 | HyperAI超神经