4 个月前

基于字母的语音识别与门控卷积网络

基于字母的语音识别与门控卷积网络

摘要

在近期的文献中,“端到端”语音系统通常指的是以字母为基础的声学模型,这些模型以序列到序列的方式进行训练,可以采用递归模型或结构化输出学习方法(如CTC)。与传统的音素(或音子)基础方法相比,这些“端到端”方法减轻了对单词发音建模的需求,并且在训练时不需要“强制对齐”步骤。然而,基于音素的方法在经典基准测试中仍然处于领先地位。本文提出了一种基于字母的语音识别系统,该系统利用卷积神经网络(ConvNet)声学模型。卷积神经网络的关键成分包括门控线性单元(Gated Linear Units)和高dropout率。该卷积神经网络被训练用于将音频序列映射到相应的字母转录,可以通过经典的CTC方法或最近的一种变体ASG进行训练。结合简单的解码器在推理阶段使用,我们的系统在WSJ数据集上的表现与现有的最佳字母基础系统相当(以词错误率衡量),并在LibriSpeech数据集上显示出接近最先进水平的性能。

代码仓库

MrMao/wav2letter
pytorch
GitHub 中提及
eric-erki/wav2letter
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-librispeech-test-cleanGated ConvNets
Word Error Rate (WER): 4.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于字母的语音识别与门控卷积网络 | 论文 | HyperAI超神经