
摘要
近年来,神经声码器(neural vocoding)的发展主要由时域(time-domain)运行的生成对抗网络(Generative Adversarial Networks, GANs)推动。尽管该方法在音质表现上具有显著效果,但其忽略了时频表示所蕴含的归纳偏置(inductive bias),导致需要冗余且计算成本高昂的上采样操作。相比之下,基于傅里叶变换的时频表示更具吸引力,其在建模上更贴近人类听觉感知,并可借助成熟的快速算法实现高效计算。然而,长期以来,直接重建复数谱图(complex-valued spectrograms)面临挑战,主要源于相位恢复(phase recovery)难题。为此,本研究提出Vocos——一种直接生成傅里叶频谱系数的新模型,有效填补了这一技术空白。实验评估表明,Vocos在音质方面达到了当前最先进的水平,同时在计算效率上实现显著提升,相较主流时域神经声码器方法,速度提升了一个数量级。相关源代码与模型权重已开源,地址为:https://github.com/gemelo-ai/vocos。
代码仓库
whisperspeech/whisperspeech
pytorch
GitHub 中提及
gemelo-ai/vocos
官方
pytorch
GitHub 中提及
collabora/whisperspeech
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-synthesis-on-libritts | Vocos | PESQ: 3.70 Periodicity: 0.101 V/UV F1: 0.9582 |