3 个月前

神经隐马尔可夫模型(Neural HMMs)是实现高质量无注意力机制TTS的全部所需

神经隐马尔可夫模型(Neural HMMs)是实现高质量无注意力机制TTS的全部所需

摘要

基于神经网络的序列到序列文本转语音(TTS)技术在输出质量上已显著优于传统基于隐马尔可夫模型(HMM)的统计语音合成方法。然而,神经TTS通常不具备概率建模能力,且采用非单调注意力机制,这会导致注意力机制失效,从而增加训练时间,并可能使语音合成结果出现语义不连贯的问题。本文提出一种融合传统与现代范式的方法,通过用由神经网络定义的自回归左右结构、无跳过(no-skip)隐马尔可夫模型(HMM)替代神经TTS中的注意力机制,从而兼顾两者的优势。基于这一思想,我们对Tacotron 2模型进行了改进,构建了一种基于HMM的神经TTS模型,该模型具备单调对齐特性,并在训练过程中直接最大化完整语音序列的联合似然,无需近似处理。此外,本文还系统阐述了如何融合经典与现代TTS技术的核心思想,以实现最优合成效果。实验结果表明,所提出的系统相较于Tacotron 2更加轻量且结构更简单,在更少的训练迭代次数和更少的数据量下即可学会自然发音,且在后处理网络(post-net)之前即可达到相当的自然度水平。同时,该方法还支持对语音语速的便捷控制。

代码仓库

shivammehta25/Neural-HMM
官方
pytorch
GitHub 中提及
coqui-ai/TTS
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-synthesis-on-ljspeechNeural HMM Ablation with 1 state per phone
Mean Opinion Score: 2.68
speech-synthesis-on-ljspeechNeural HMM
Mean Opinion Score: 3.24

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
神经隐马尔可夫模型(Neural HMMs)是实现高质量无注意力机制TTS的全部所需 | 论文 | HyperAI超神经