3 个月前

基于手势姿态的Transformer用于词级手语识别

基于手势姿态的Transformer用于词级手语识别

摘要

本文提出了一种基于Transformer模型的逐词手语识别系统。我们致力于实现计算成本较低的解决方案,因为我们认为此类识别系统在手持设备上的应用具有巨大潜力。我们的识别方法基于对人体姿态的估计,以二维关键点坐标的形式表示。为此,我们提出了一种鲁棒的姿态归一化方法,该方法充分考虑了手语表达的空间特性,并将手部姿态在独立于身体姿态的局部坐标系中进行处理。实验结果表明,该归一化方法对提升所提系统识别精度具有显著影响。此外,我们引入了多种身体姿态增强策略,进一步提升了识别性能,其中包含一种新颖的顺序关节旋转增强方法。在所有模块协同工作下,我们在WLASL和LSA64两个数据集上均取得了当前最优的Top-1识别性能。在WLASL数据集的100词子集上,系统成功识别了63.18%的手语样本,相较于先前最优方法实现了5%的相对提升;在300词子集上,识别率达到43.78%,相对提升达3.8%。在LSA64数据集上,我们报告的测试识别准确率为100%。

基准测试

基准方法指标
sign-language-recognition-on-lsa64SPOTER
Accuracy (%): 100
sign-language-recognition-on-wlasl100SPOTER
Top-1 Accuracy: 63.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于手势姿态的Transformer用于词级手语识别 | 论文 | HyperAI超神经