
摘要
近年来,生成对抗网络(Generative Adversarial Networks, GANs)在语音增强(Speech Enhancement, SE)任务中取得了显著的性能提升。然而,GANs的训练过程仍存在较大难度。本文提出了一系列针对GAN训练策略的改进方法,可广泛应用于多数基于GAN的语音增强模型。我们引入了一致性损失函数(consistency loss functions),旨在解决由傅里叶变换(Fourier Transform)及其逆变换(Inverse Fourier Transform)引起的时域与时频域之间的不一致性问题。此外,我们提出了一种自校正优化方法,用于在语音增强任务中训练GAN判别器,有效避免了判别器损失函数中某些部分可能引入的“有害”训练方向。我们在多个先进的基于GAN的语音增强模型上验证了所提方法,均取得了稳定且一致的性能提升,其中在Voice Bank+DEMAND数据集上实现了新的最先进(state-of-the-art)结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-demand | SCP-CMGAN | CBAK: 3.97 COVL: 4.25 CSIG: 4.75 PESQ (wb): 3.52 SSNR: 10.82 STOI: 96 |