4 个月前

分层窗口图注意力网络及大规模数据集在孤立印度手语识别中的应用

分层窗口图注意力网络及大规模数据集在孤立印度手语识别中的应用

摘要

自动手语(SL)识别是计算机视觉领域的一个重要任务。为了构建一个稳健的手语识别系统,我们需要大量的数据,而在印度手语(ISL)方面尤为缺乏。本文介绍了一个大规模的孤立ISL数据集和一种基于骨架图结构的新颖手语识别模型。该数据集涵盖了聋人群体日常使用的2002个常用词汇,由20名(10名男性和10名女性)成年聋人手势表演者录制(包含40033段视频)。我们提出了一种名为分层窗口图注意力网络(Hierarchical Windowed Graph Attention Network, HWGAT)的手语识别模型,利用人体上半身骨架图来捕捉不同的动作特征。HWGAT通过关注由人体骨架图引发的不同身体部位,尝试捕捉具有区分性的运动。我们通过广泛的实验评估了所提出数据集的实用性和模型的有效性。我们在提出的ISL数据集上预训练了该模型,并在其他不同的手语数据集上进行了微调,与现有的基于关键点的最先进模型相比,在INCLUDE、LSA64、AUTSL和WLASL数据集上的性能分别提高了1.10、0.46、0.78和6.84个百分点。关键词:自动手语识别、印度手语、大规模数据集、骨架图结构、分层窗口图注意力网络(HWGAT)、计算机视觉

代码仓库

suvajit-patra/sl-hwgat
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-recognition-on-autslHWGAT
Rank-1 Recognition Rate: 0.9580
sign-language-recognition-on-fdmse-islHWGAT
Top-1 Accuracy: 93.86
sign-language-recognition-on-lsa64HWGAT
Accuracy (%): 98.59
sign-language-recognition-on-wlasl-2000HWGAT
Top-1 Accuracy: 48.49

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分层窗口图注意力网络及大规模数据集在孤立印度手语识别中的应用 | 论文 | HyperAI超神经