
摘要
本文提出一种基于条件随机场(CRF)的单阶段(SS)声学建模方法,该方法采用受连接时序分类(CTC)启发的状态拓扑结构,简称CTC-CRF。CTC-CRF在概念上简洁明了,其核心是在底层神经网络生成的特征之上构建一个CRF层,并采用特殊的状态拓扑结构。与单阶段无图最大互信息(SS-LF-MMI)类似,CTC-CRF可从零开始进行端到端训练(即“平启动”训练),无需依赖GMM-HMM预训练或音系树构建过程。我们在WSJ、Switchboard和LibriSpeech三个标准数据集上进行了评估实验。在与SS-LF-MMI的直接对比中,采用简单双向LSTM结构的CTC-CRF模型在所有三个基准数据集上,无论使用单音素(mono-phones)还是单字符(mono-chars)建模方式,均持续优于强基线模型SS-LF-MMI。此外,CTC-CRF还避免了SS-LF-MMI中一些人为设定的复杂操作,进一步提升了模型的简洁性与可训练性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-librispeech-test-clean | CTC-CRF 4gram-LM | Word Error Rate (WER): 4.09 |
| speech-recognition-on-librispeech-test-other | CTC-CRF 4gram-LM | Word Error Rate (WER): 10.65 |
| speech-recognition-on-wsj-dev93 | Convolutional Speech Recognition | Word Error Rate (WER): 6.23 |
| speech-recognition-on-wsj-eval92 | CTC-CRF 4gram-LM | Word Error Rate (WER): 3.79 |
| speech-recognition-on-wsj-eval93 | CTC-CRF 4gram-LM | Word Error Rate (WER): 6.23 |