4 个月前

CMGAN:基于Conformer的单通道语音增强度量-GAN

CMGAN:基于Conformer的单通道语音增强度量-GAN

摘要

在本研究中,我们进一步开发了基于构象器的度量生成对抗网络(CMGAN)模型,用于时频(TF)域的语音增强(SE)。本文在我们之前工作的基础上进行了深入探讨,通过广泛的消融实验对模型输入和架构设计选择进行了详细分析。我们严格测试了模型对未见过的噪声类型和失真的泛化能力,并通过DNS-MOS测量和听觉测试对其性能进行了验证。除了专注于语音去噪任务外,我们将这项工作扩展到解决去混响和超分辨率任务。这需要探索多种架构变化,特别是度量判别器得分和掩码技术。需要特别指出的是,这是最早尝试复杂TF域超分辨率的工作之一。我们的研究结果表明,CMGAN在三个主要的语音增强任务——去噪、去混响和超分辨率中均优于现有的最先进方法。例如,在使用Voice Bank+DEMAND数据集进行的去噪任务中,CMGAN显著超越了先前模型的表现,达到了3.41的PESQ分数和11.10 dB的SSNR。音频样本和CMGAN实现代码已在线提供。

代码仓库

ruizhecao96/cmgan
官方
pytorch
GitHub 中提及
SherifAbdulatif/CMGAN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-super-resolution-on-vctk-multi-speaker-1CMGAN
Log-Spectral Distance: 0.76
speech-enhancement-on-demandCMGAN
CBAK: 3.94
COVL: 4.12
CSIG: 4.63
PESQ (wb): 3.41
SSNR: 11.1
STOI: 96

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CMGAN:基于Conformer的单通道语音增强度量-GAN | 论文 | HyperAI超神经