3 个月前

用于连续手语识别的多状态手势词的随机细粒度标注

用于连续手语识别的多状态手势词的随机细粒度标注

摘要

本文提出了一种针对基于Transformer编码器与连接时序分类(CTC)的连续手语识别(CSLR)系统的新型随机建模方法。尤为重要的是,我们为每个手语词汇(gloss)建模多个状态,且状态数量被建模为服从可学习概率分布的分类随机变量,从而为CTC解码器的训练提供具有随机性与细粒度特性的标签。此外,我们进一步提出了随机帧丢弃机制与梯度停止方法,以有效应对在使用CTC损失训练Transformer模型时出现的严重过拟合问题。这两种方法还显著降低了训练过程中的计算开销,包括时间与空间成本。我们在多个主流的CSLR数据集上对所提模型进行了评估,实验结果表明,该方法在性能上优于当前最先进的技术。

基准测试

基准方法指标
sign-language-recognition-on-rwth-phoenixStochastic CSLR
Word Error Rate (WER): 25.3
sign-language-recognition-on-rwth-phoenix-1Stochastic CSLR
Word Error Rate (WER): 26.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于连续手语识别的多状态手势词的随机细粒度标注 | 论文 | HyperAI超神经