
摘要
本文研究了俄罗斯手指字母表(也称为俄罗斯手语[RSL] 手指拼写)的识别问题。手指拼写是手语中的一种组成部分,通过特定的手部动作来表示书面语言中的各个字母。这种方法用于拼写没有专门手势的单词,如专有名词或技术术语。字母学习模拟器是手指拼写识别的一个重要应用。在孤立手指拼写识别中存在一个显著的数据不足问题:现有的俄罗斯手指拼写数据集缺乏主体多样性,样本数量不足,或者仅涵盖静态手势。我们提供了Bukva,这是首个完整的开源视频数据集,用于俄罗斯手语手指拼写的识别。该数据集包含3,757个视频,每个RSL字母表符号(包括动态手势)都有超过101个样本。我们利用众包平台增加了主体的多样性,共有155名聋哑和听力障碍专家参与了数据集的创建。为了有效处理静态和动态手势,我们使用了TSM(时间移位模块)块,在仅使用CPU的情况下实现了83.6%的Top-1准确率,并且可以实时推理。该数据集、演示代码和预训练模型均已公开发布。
代码仓库
ai-forever/bukva
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sign-language-recognition-on-bukva | MobileNetV2_TSM | Accuracy (Top-1): 83.6 |