3 个月前

Vocos:弥合时域与基于傅里叶变换的神经声码器在高质量音频合成中的差距

Vocos:弥合时域与基于傅里叶变换的神经声码器在高质量音频合成中的差距

摘要

近年来,神经声码器(neural vocoding)的发展主要由时域(time-domain)运行的生成对抗网络(Generative Adversarial Networks, GANs)推动。尽管该方法在音质表现上具有显著效果,但其忽略了时频表示所蕴含的归纳偏置(inductive bias),导致需要冗余且计算成本高昂的上采样操作。相比之下,基于傅里叶变换的时频表示更具吸引力,其在建模上更贴近人类听觉感知,并可借助成熟的快速算法实现高效计算。然而,长期以来,直接重建复数谱图(complex-valued spectrograms)面临挑战,主要源于相位恢复(phase recovery)难题。为此,本研究提出Vocos——一种直接生成傅里叶频谱系数的新模型,有效填补了这一技术空白。实验评估表明,Vocos在音质方面达到了当前最先进的水平,同时在计算效率上实现显著提升,相较主流时域神经声码器方法,速度提升了一个数量级。相关源代码与模型权重已开源,地址为:https://github.com/gemelo-ai/vocos。

代码仓库

whisperspeech/whisperspeech
pytorch
GitHub 中提及
gemelo-ai/vocos
官方
pytorch
GitHub 中提及
collabora/whisperspeech
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-synthesis-on-librittsVocos
PESQ: 3.70
Periodicity: 0.101
V/UV F1: 0.9582

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Vocos:弥合时域与基于傅里叶变换的神经声码器在高质量音频合成中的差距 | 论文 | HyperAI超神经