Xu TanJiawei ChenHaohe LiuJian CongChen ZhangYanqing LiuXi WangYichong LengYuanhao YiLei HeFrank SoongTao QinSheng ZhaoTie-Yan Liu

摘要
近年来,文本转语音(Text-to-Speech, TTS)技术在学术界与工业界均取得了快速进展。由此自然引出几个关键问题:TTS系统能否达到人类水平的语音质量?如何定义和评判这种质量?又该如何实现?本文通过以下方式回答这些问题:首先,基于主观评测的统计显著性,定义了人类水平语音质量的标准,并提出了相应的评判准则;随后,我们提出了一种名为NaturalSpeech的TTS系统,在基准数据集上实现了人类水平的语音质量。具体而言,我们采用变分自编码器(Variational Autoencoder, VAE)实现端到端的文本到波形生成,并引入多个关键模块以增强从文本到先验分布的建模能力,同时降低从语音到后验分布的建模复杂度,包括:音素预训练、可微分的时长建模、双向先验/后验建模,以及在VAE中引入的记忆机制。在广泛使用的LJSpeech数据集上的实验评估表明,所提出的NaturalSpeech系统在句子级别上与真人录音相比,获得了-0.01的比较平均意见得分(CMOS,Comparative Mean Opinion Score),且在Wilcoxon符号秩检验中p值远大于0.05,首次在该数据集上实现了与真人录音之间无统计显著差异的语音质量。
代码仓库
microsoft/NeuralSpeech
官方
pytorch
daniilrobnikov/vits2
pytorch
GitHub 中提及
heatz123/naturalspeech
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-speech-synthesis-on-ljspeech | FastSpeech 2 + HiFiGAN | Audio Quality MOS: 4.34 |
| text-to-speech-synthesis-on-ljspeech | VITS | Audio Quality MOS: 4.43 |
| text-to-speech-synthesis-on-ljspeech | NaturalSpeech | Audio Quality MOS: 4.56 |