
摘要
发音特征以及音素转写在语音相关任务中发挥着重要作用,包括计算机辅助发音训练、文本到语音转换(TTS)、研究语音生成机制以及低资源语言的语音识别。近年来,端到端方法在语音相关任务中得到了广泛的关注。我们应用了“听、注意和拼写”(Listen, Attend and Spell, LAS)架构 \cite{Chan-LAS2016} 进行小规模训练集上的音素识别,例如 TIMIT 数据集 \cite{TIMIT-1992}。此外,我们提出了一种新的解码技术,该技术允许使用注意力模型端到端地训练发音方式和发音部位检测器。我们还探讨了在多任务学习框架下联合进行音素识别和发音特征检测的方法。
代码仓库
sciforce/phones-las
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-timit | LAS multitask with indicators sampling | Percentage error: 20.4 |