7 个月前

卷积神经网络

音频和语音处理

Vitaliy Liptchinsky Gabriel Synnaeve Ronan Collobert

摘要

在近期的文献中，“端到端”语音系统通常指的是以字母为基础的声学模型，这些模型以序列到序列的方式进行训练，可以采用递归模型或结构化输出学习方法（如CTC）。与传统的音素（或音子）基础方法相比，这些“端到端”方法减轻了对单词发音建模的需求，并且在训练时不需要“强制对齐”步骤。然而，基于音素的方法在经典基准测试中仍然处于领先地位。本文提出了一种基于字母的语音识别系统，该系统利用卷积神经网络（ConvNet）声学模型。卷积神经网络的关键成分包括门控线性单元（Gated Linear Units）和高dropout率。该卷积神经网络被训练用于将音频序列映射到相应的字母转录，可以通过经典的CTC方法或最近的一种变体ASG进行训练。结合简单的解码器在推理阶段使用，我们的系统在WSJ数据集上的表现与现有的最佳字母基础系统相当（以词错误率衡量），并在LibriSpeech数据集上显示出接近最先进水平的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

音频和语音处理

Vitaliy Liptchinsky Gabriel Synnaeve Ronan Collobert

摘要

在近期的文献中，“端到端”语音系统通常指的是以字母为基础的声学模型，这些模型以序列到序列的方式进行训练，可以采用递归模型或结构化输出学习方法（如CTC）。与传统的音素（或音子）基础方法相比，这些“端到端”方法减轻了对单词发音建模的需求，并且在训练时不需要“强制对齐”步骤。然而，基于音素的方法在经典基准测试中仍然处于领先地位。本文提出了一种基于字母的语音识别系统，该系统利用卷积神经网络（ConvNet）声学模型。卷积神经网络的关键成分包括门控线性单元（Gated Linear Units）和高dropout率。该卷积神经网络被训练用于将音频序列映射到相应的字母转录，可以通过经典的CTC方法或最近的一种变体ASG进行训练。结合简单的解码器在推理阶段使用，我们的系统在WSJ数据集上的表现与现有的最佳字母基础系统相当（以词错误率衡量），并在LibriSpeech数据集上显示出接近最先进水平的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供