3 个月前

基于视频的词级深度手语识别:一个新的大规模数据集及方法对比

基于视频的词级深度手语识别:一个新的大规模数据集及方法对比

摘要

基于视觉的手语识别旨在帮助聋哑人群体与他人进行交流。然而,目前大多数现有的手语数据集仅涵盖少量词汇,受限于词汇量较小,由此训练出的模型难以在实际场景中应用。本文提出一个全新的大规模词级美国手语(Word-Level American Sign Language, WLASL)视频数据集,包含超过2000个词汇,由100多位手语使用者完成录制。该数据集将向研究社区公开,据我们所知,这是迄今为止规模最大的公开手语数据集,可有效推动词级手语识别的研究进展。基于这一大规模新数据集,我们能够对多种深度学习方法在词级手语识别任务中进行大规模实验,并评估其性能表现。具体而言,我们实现了两种不同类型的模型进行对比分析:(i)基于整体视觉外观的方法,以及(ii)基于2D人体姿态的方法。这两种模型均作为有价值的基准模型,有助于推动该领域方法的标准化评估与比较。此外,我们还提出一种新型的姿态驱动时序图卷积网络(Pose-TGCN),能够同时建模人体姿态轨迹中的空间与时间依赖关系,显著提升了基于姿态方法的识别性能。实验结果表明,基于姿态与基于外观的模型在2000个词汇/词素的Top-10准确率上均达到了约66%的水平,验证了本数据集的有效性,同时也揭示了该任务所面临的挑战。本研究提供的数据集及基线深度学习模型已公开发布,访问地址为:\url{https://dxli94.github.io/WLASL/}。

代码仓库

dxli94/WLASL
官方
pytorch
OlineRanum/SAPA
pytorch
GitHub 中提及
matyasbohacek/spoter
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-recognition-on-wlasl-2000I3D
Top-1 Accuracy: 32.48
sign-language-recognition-on-wlasl100I3D
Top-1 Accuracy: 65.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视频的词级深度手语识别:一个新的大规模数据集及方法对比 | 论文 | HyperAI超神经