PatraSuvajit ; MaitraArkadip ; TiwariMegha ; KumaranK. ; PrabhuSwathy ; PunyeshwaranandaSwami ; SamantaSoumitra

摘要
自动手语(SL)识别是计算机视觉领域的一个重要任务。为了构建一个稳健的手语识别系统,我们需要大量的数据,而在印度手语(ISL)方面尤为缺乏。本文介绍了一个大规模的孤立ISL数据集和一种基于骨架图结构的新颖手语识别模型。该数据集涵盖了聋人群体日常使用的2002个常用词汇,由20名(10名男性和10名女性)成年聋人手势表演者录制(包含40033段视频)。我们提出了一种名为分层窗口图注意力网络(Hierarchical Windowed Graph Attention Network, HWGAT)的手语识别模型,利用人体上半身骨架图来捕捉不同的动作特征。HWGAT通过关注由人体骨架图引发的不同身体部位,尝试捕捉具有区分性的运动。我们通过广泛的实验评估了所提出数据集的实用性和模型的有效性。我们在提出的ISL数据集上预训练了该模型,并在其他不同的手语数据集上进行了微调,与现有的基于关键点的最先进模型相比,在INCLUDE、LSA64、AUTSL和WLASL数据集上的性能分别提高了1.10、0.46、0.78和6.84个百分点。关键词:自动手语识别、印度手语、大规模数据集、骨架图结构、分层窗口图注意力网络(HWGAT)、计算机视觉
代码仓库
suvajit-patra/sl-hwgat
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sign-language-recognition-on-autsl | HWGAT | Rank-1 Recognition Rate: 0.9580 |
| sign-language-recognition-on-fdmse-isl | HWGAT | Top-1 Accuracy: 93.86 |
| sign-language-recognition-on-lsa64 | HWGAT | Accuracy (%): 98.59 |
| sign-language-recognition-on-wlasl-2000 | HWGAT | Top-1 Accuracy: 48.49 |