Pedro Dal BiancoGastón RíosFranco RonchettiFacundo QuirogaOscar StanchiWaldo HasperuéAlejandro Rosete

摘要
手语翻译(Sign Language Translation, SLT)是一个活跃的研究领域,涵盖人机交互、计算机视觉、自然语言处理与机器学习等多个方向。该领域的进展有望显著提升聋人群体的社会融合水平。本文在现有研究基础上,首次构建了连续的阿根廷手语(Lengua de Señas Argentina, LSA)数据集。该数据集共包含14,880段句子级别的LSA视频,数据源自CN Sordos YouTube频道,每段视频均配有标注信息及每位手语使用者的关键点标注。此外,本文还提出了一种用于识别当前活跃手语使用者的方法,对数据集的特征进行了详尽分析,开发了一款可视化工具以支持数据探索,并构建了一个神经网络手语翻译模型,可作为未来研究的基准模型。
代码仓库
midusi/lsa-t
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sign-language-translation-on-lsa-t | Keypoints-Transformer-UNLP | Word Error Rate (WER): 0.9392 |