摘要

我们提出了一种用于自动语音识别（ASR）的新一代端到端神经声学模型。该模型由多个模块组成，模块之间通过残差连接（residual connections）相连。每个模块包含一个或多个由一维时空可分离卷积层（1D time-channel separable convolutional layers）、批归一化（batch normalization）以及ReLU激活层构成的组件。模型采用连接时序分类（CTC）损失函数进行训练。实验结果表明，该模型在LibriSpeech和Wall Street Journal数据集上均达到了接近当前最先进水平的识别准确率，同时参数量少于所有对比模型。此外，我们还证明该模型能够有效地在新数据集上进行微调（fine-tuning）。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

我们提出了一种用于自动语音识别（ASR）的新一代端到端神经声学模型。该模型由多个模块组成，模块之间通过残差连接（residual connections）相连。每个模块包含一个或多个由一维时空可分离卷积层（1D time-channel separable convolutional layers）、批归一化（batch normalization）以及ReLU激活层构成的组件。模型采用连接时序分类（CTC）损失函数进行训练。实验结果表明，该模型在LibriSpeech和Wall Street Journal数据集上均达到了接近当前最先进水平的识别准确率，同时参数量少于所有对比模型。此外，我们还证明该模型能够有效地在新数据集上进行微调（fine-tuning）。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

用 AI 构建 AI

HyperAI Newsletters