6 个月前

音频和语音处理

Luka Chkhetiani Levan Bejanidze

摘要

近年来，生成对抗网络（Generative Adversarial Networks, GANs）在语音合成领域取得了显著进展[3],[2]，表明可通过可靠的方法训练GANs [8]，从梅尔频谱（mel-spectrograms）生成高质量、连贯的波形。本文提出，可将MelGAN [3]在学习语音特征方面的鲁棒性直接迁移至语音增强与噪声抑制领域，且无需进行任何模型结构修改。所提出的方法在多说话人语音数据集上具有良好的泛化能力，能够在推理阶段稳健处理未见过的背景噪声。此外，我们发现，通过增大该方法的批量大小（batch size），不仅能够显著提升语音质量，还能更轻松地实现对多说话人数据集的泛化，并加速模型收敛。实验结果表明，该方法在两个关键指标上均优于此前最先进的GAN语音增强方法SEGAN [5]：1. 语音质量；2. 推理速度。所提方法在GPU上运行速度超过实时速度的100倍，在CPU上也超过实时速度的2倍，且无需任何硬件优化，其推理速度与MelGAN [3]保持一致。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Luka Chkhetiani Levan Bejanidze

摘要

近年来，生成对抗网络（Generative Adversarial Networks, GANs）在语音合成领域取得了显著进展[3],[2]，表明可通过可靠的方法训练GANs [8]，从梅尔频谱（mel-spectrograms）生成高质量、连贯的波形。本文提出，可将MelGAN [3]在学习语音特征方面的鲁棒性直接迁移至语音增强与噪声抑制领域，且无需进行任何模型结构修改。所提出的方法在多说话人语音数据集上具有良好的泛化能力，能够在推理阶段稳健处理未见过的背景噪声。此外，我们发现，通过增大该方法的批量大小（batch size），不仅能够显著提升语音质量，还能更轻松地实现对多说话人数据集的泛化，并加速模型收敛。实验结果表明，该方法在两个关键指标上均优于此前最先进的GAN语音增强方法SEGAN [5]：1. 语音质量；2. 推理速度。所提方法在GPU上运行速度超过实时速度的100倍，在CPU上也超过实时速度的2倍，且无需任何硬件优化，其推理速度与MelGAN [3]保持一致。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

SE-MelGAN —— 说话人无关的快速语音增强 | 论文 | HyperAI超神经