3 个月前

QuartzNet:基于一维时空可分离卷积的深度自动语音识别

QuartzNet:基于一维时空可分离卷积的深度自动语音识别

摘要

我们提出了一种用于自动语音识别(ASR)的新一代端到端神经声学模型。该模型由多个模块组成,模块之间通过残差连接(residual connections)相连。每个模块包含一个或多个由一维时空可分离卷积层(1D time-channel separable convolutional layers)、批归一化(batch normalization)以及ReLU激活层构成的组件。模型采用连接时序分类(CTC)损失函数进行训练。实验结果表明,该模型在LibriSpeech和Wall Street Journal数据集上均达到了接近当前最先进水平的识别准确率,同时参数量少于所有对比模型。此外,我们还证明该模型能够有效地在新数据集上进行微调(fine-tuning)。

代码仓库

sberdevices/golos
pytorch
GitHub 中提及
yangzhou6666/asrprophet
pytorch
GitHub 中提及
isadrtdinov/quartznet
pytorch
GitHub 中提及
NVIDIA/NeMo
官方
pytorch
sooftware/OpenSpeech
pytorch
GitHub 中提及
marka17/digit-recognition
pytorch
GitHub 中提及
nanoporetech/bonito
pytorch
GitHub 中提及
osmr/imgclsmob
mxnet
GitHub 中提及
stefanpantic/asr
tf
GitHub 中提及
oleges1/quartznet-pytorch
pytorch
GitHub 中提及
ivankunyankin/quartznet-asr
pytorch
GitHub 中提及
msalhab96/SpeeQ
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-librispeech-test-cleanQuartzNet15x5
Word Error Rate (WER): 2.69
speech-recognition-on-librispeech-test-otherQuartzNet15x5
Word Error Rate (WER): 7.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
QuartzNet:基于一维时空可分离卷积的深度自动语音识别 | 论文 | HyperAI超神经