HyperAIHyperAI

Command Palette

Search for a command to run...

NaturalSpeech:具备人类级质量的端到端文本到语音合成

摘要

近年来,文本转语音(Text-to-Speech, TTS)技术在学术界与工业界均取得了快速进展。由此自然引出几个关键问题:TTS系统能否达到人类水平的语音质量?如何定义和评判这种质量?又该如何实现?本文通过以下方式回答这些问题:首先,基于主观评测的统计显著性,定义了人类水平语音质量的标准,并提出了相应的评判准则;随后,我们提出了一种名为NaturalSpeech的TTS系统,在基准数据集上实现了人类水平的语音质量。具体而言,我们采用变分自编码器(Variational Autoencoder, VAE)实现端到端的文本到波形生成,并引入多个关键模块以增强从文本到先验分布的建模能力,同时降低从语音到后验分布的建模复杂度,包括:音素预训练、可微分的时长建模、双向先验/后验建模,以及在VAE中引入的记忆机制。在广泛使用的LJSpeech数据集上的实验评估表明,所提出的NaturalSpeech系统在句子级别上与真人录音相比,获得了-0.01的比较平均意见得分(CMOS,Comparative Mean Opinion Score),且在Wilcoxon符号秩检验中p值远大于0.05,首次在该数据集上实现了与真人录音之间无统计显著差异的语音质量。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NaturalSpeech:具备人类级质量的端到端文本到语音合成 | 论文 | HyperAI超神经