4 个月前

神经声码器是语音超分辨率所需的一切

神经声码器是语音超分辨率所需的一切

摘要

语音超分辨率(SR)是指通过生成高频成分来提高语音采样率的任务。现有的语音SR方法通常在受限的实验环境中进行训练,例如固定的上采样比例。这些严格的限制可能会导致在实际应用中遇到不匹配情况时,模型的泛化能力较差。本文提出了一种基于神经声码器的语音超分辨率方法(NVSR),该方法能够处理多种输入分辨率和上采样比例。NVSR由梅尔带宽扩展模块、神经声码器模块和后处理模块组成。我们提出的系统在VCTK多说话人基准测试中取得了最先进的结果。在44.1 kHz的目标分辨率下,NVSR在对数谱距离指标上的表现分别比WSRGlow和Nu-wave高出8%和37%,并且感知质量显著优于后者。此外,我们还通过使用简单的复制填充方法进行梅尔带宽扩展,证明了预训练声码器中的先验知识对于语音SR至关重要。样本可以在以下链接获取:https://haoheliu.github.io/nvsr。

代码仓库

haoheliu/ssr_eval
官方
pytorch

基准测试

基准方法指标
audio-super-resolution-on-vctk-multi-speaker-1NVSR
Log-Spectral Distance: 0.78

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
神经声码器是语音超分辨率所需的一切 | 论文 | HyperAI超神经