3 个月前

SE-MelGAN —— 说话人无关的快速语音增强

SE-MelGAN —— 说话人无关的快速语音增强

摘要

近年来,生成对抗网络(Generative Adversarial Networks, GANs)在语音合成领域取得了显著进展[3],[2],表明可通过可靠的方法训练GANs [8],从梅尔频谱(mel-spectrograms)生成高质量、连贯的波形。本文提出,可将MelGAN [3]在学习语音特征方面的鲁棒性直接迁移至语音增强与噪声抑制领域,且无需进行任何模型结构修改。所提出的方法在多说话人语音数据集上具有良好的泛化能力,能够在推理阶段稳健处理未见过的背景噪声。此外,我们发现,通过增大该方法的批量大小(batch size),不仅能够显著提升语音质量,还能更轻松地实现对多说话人数据集的泛化,并加速模型收敛。实验结果表明,该方法在两个关键指标上均优于此前最先进的GAN语音增强方法SEGAN [5]:1. 语音质量;2. 推理速度。所提方法在GPU上运行速度超过实时速度的100倍,在CPU上也超过实时速度的2倍,且无需任何硬件优化,其推理速度与MelGAN [3]保持一致。

基准测试

基准方法指标
speech-enhancement-on-librispeechSE-MelGAN
Audio Quality MOS: 3.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SE-MelGAN —— 说话人无关的快速语音增强 | 论文 | HyperAI超神经