
摘要
我们介绍了一种基于端到端深度学习的最新语音识别系统。与依赖精心设计的处理管道的传统语音系统相比,我们的架构显著简化;而这些传统系统在嘈杂环境中往往表现不佳。相比之下,我们的系统无需手动设计组件来建模背景噪声、混响或说话人变化,而是直接学习一种对这些效应具有鲁棒性的函数。我们不需要音素字典,甚至不需要“音素”这一概念。我们方法的关键在于一个经过良好优化的递归神经网络(RNN)训练系统,该系统使用多个GPU,并且采用了一系列新颖的数据合成技术,使我们能够高效地获得大量多样化的训练数据。我们的系统称为Deep Speech,在广泛研究的Switchboard Hub5'00测试集上超过了以往公布的最佳结果,实现了16.0%的错误率。此外,Deep Speech在处理具有挑战性的嘈杂环境方面也优于广泛使用的、最先进的商业语音系统。
代码仓库
WalterJohnson0/DeepSpeech-KerasRebuild
tf
GitHub 中提及
robmsmt/KerasDeepSpeech
tf
GitHub 中提及
mozilla/DeepSpeech
tf
GitHub 中提及
pannous/caffe-speech-recognition
caffe2
GitHub 中提及
anssssss/Vietnamese-Speech-Recognition
tf
GitHub 中提及
PaddlePaddle/PaddleSpeech
官方
paddle
Picovoice/speech-to-text-benchmark
GitHub 中提及
bjtommychen/Keras_DeepSpeech2_SpeechRecognition
tf
GitHub 中提及
GeorgeFedoseev/DeepSpeech
tf
GitHub 中提及
RezisEwig/unity_speech
GitHub 中提及
YuBeomGon/DeepSpeech
tf
GitHub 中提及
Picovoice/stt-benchmark
GitHub 中提及
soarsmu/crossasr
paddle
GitHub 中提及
tuanio/deepspeech-ctc
pytorch
Digital-Umuganda/Deepspeech-Kinyarwanda
tf
GitHub 中提及
IBM/MAX-Speech-to-Text-Converter
tf
GitHub 中提及
Loghijiaha/DeepSpeech-Indo
tf
GitHub 中提及
mozilla/STT
tf
GitHub 中提及
mangushev/deep_speech
tf
GitHub 中提及
msalhab96/SpeeQ
pytorch
GitHub 中提及
CorrelAid/codingchallenge1020_team1
tf
GitHub 中提及
lissyx/STT
tf
GitHub 中提及
myrtleSoftware/deepspeech
pytorch
GitHub 中提及
RashadGarayev/TRSpeech-to-text
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| accented-speech-recognition-on-voxforge | Deep Speech | Percentage error: 45.35 |
| accented-speech-recognition-on-voxforge-1 | Deep Speech | Percentage error: 28.46 |
| accented-speech-recognition-on-voxforge-2 | Deep Speech | Percentage error: 31.20 |
| accented-speech-recognition-on-voxforge-3 | Deep Speech | Percentage error: 15.01 |
| noisy-speech-recognition-on-chime-clean | CNN + Bi-RNN + CTC (speech to letters) | Percentage error: 6.3 |
| noisy-speech-recognition-on-chime-real | CNN + Bi-RNN + CTC (speech to letters) | Percentage error: 67.94 |
| speech-recognition-on-swb_hub_500-wer | CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB | Percentage error: 16 |
| speech-recognition-on-switchboard-hub500 | Deep Speech + FSH | Percentage error: 12.6 |
| speech-recognition-on-switchboard-hub500 | CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB | Percentage error: 12.6 |
| speech-recognition-on-switchboard-hub500 | Deep Speech | Percentage error: 20 |