HyperAIHyperAI

Command Palette

Search for a command to run...

用于连续手语识别的多状态手势词的随机细粒度标注

Brian Mak Zhe Niu

摘要

本文提出了一种针对基于Transformer编码器与连接时序分类(CTC)的连续手语识别(CSLR)系统的新型随机建模方法。尤为重要的是,我们为每个手语词汇(gloss)建模多个状态,且状态数量被建模为服从可学习概率分布的分类随机变量,从而为CTC解码器的训练提供具有随机性与细粒度特性的标签。此外,我们进一步提出了随机帧丢弃机制与梯度停止方法,以有效应对在使用CTC损失训练Transformer模型时出现的严重过拟合问题。这两种方法还显著降低了训练过程中的计算开销,包括时间与空间成本。我们在多个主流的CSLR数据集上对所提模型进行了评估,实验结果表明,该方法在性能上优于当前最先进的技术。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供