7 个月前

计算机视觉

计算机视觉

Brian Mak Zhe Niu

摘要

本文提出了一种针对基于Transformer编码器与连接时序分类（CTC）的连续手语识别（CSLR）系统的新型随机建模方法。尤为重要的是，我们为每个手语词汇（gloss）建模多个状态，且状态数量被建模为服从可学习概率分布的分类随机变量，从而为CTC解码器的训练提供具有随机性与细粒度特性的标签。此外，我们进一步提出了随机帧丢弃机制与梯度停止方法，以有效应对在使用CTC损失训练Transformer模型时出现的严重过拟合问题。这两种方法还显著降低了训练过程中的计算开销，包括时间与空间成本。我们在多个主流的CSLR数据集上对所提模型进行了评估，实验结果表明，该方法在性能上优于当前最先进的技术。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Brian Mak Zhe Niu

摘要

本文提出了一种针对基于Transformer编码器与连接时序分类（CTC）的连续手语识别（CSLR）系统的新型随机建模方法。尤为重要的是，我们为每个手语词汇（gloss）建模多个状态，且状态数量被建模为服从可学习概率分布的分类随机变量，从而为CTC解码器的训练提供具有随机性与细粒度特性的标签。此外，我们进一步提出了随机帧丢弃机制与梯度停止方法，以有效应对在使用CTC损失训练Transformer模型时出现的严重过拟合问题。这两种方法还显著降低了训练过程中的计算开销，包括时间与空间成本。我们在多个主流的CSLR数据集上对所提模型进行了评估，实验结果表明，该方法在性能上优于当前最先进的技术。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供