6 个月前

音频和语音处理

Vasily Zadorozhnyy Qiang Ye Kazuhito Koishida

摘要

近年来，生成对抗网络（Generative Adversarial Networks, GANs）在语音增强（Speech Enhancement, SE）任务中取得了显著的性能提升。然而，GANs的训练过程仍存在较大难度。本文提出了一系列针对GAN训练策略的改进方法，可广泛应用于多数基于GAN的语音增强模型。我们引入了一致性损失函数（consistency loss functions），旨在解决由傅里叶变换（Fourier Transform）及其逆变换（Inverse Fourier Transform）引起的时域与时频域之间的不一致性问题。此外，我们提出了一种自校正优化方法，用于在语音增强任务中训练GAN判别器，有效避免了判别器损失函数中某些部分可能引入的“有害”训练方向。我们在多个先进的基于GAN的语音增强模型上验证了所提方法，均取得了稳定且一致的性能提升，其中在Voice Bank+DEMAND数据集上实现了新的最先进（state-of-the-art）结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Vasily Zadorozhnyy Qiang Ye Kazuhito Koishida

摘要

近年来，生成对抗网络（Generative Adversarial Networks, GANs）在语音增强（Speech Enhancement, SE）任务中取得了显著的性能提升。然而，GANs的训练过程仍存在较大难度。本文提出了一系列针对GAN训练策略的改进方法，可广泛应用于多数基于GAN的语音增强模型。我们引入了一致性损失函数（consistency loss functions），旨在解决由傅里叶变换（Fourier Transform）及其逆变换（Inverse Fourier Transform）引起的时域与时频域之间的不一致性问题。此外，我们提出了一种自校正优化方法，用于在语音增强任务中训练GAN判别器，有效避免了判别器损失函数中某些部分可能引入的“有害”训练方向。我们在多个先进的基于GAN的语音增强模型上验证了所提方法，均取得了稳定且一致的性能提升，其中在Voice Bank+DEMAND数据集上实现了新的最先进（state-of-the-art）结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

SCP-GAN：用于语音增强任务中保持训练一致性的度量GAN的自校正判别器优化 | 论文 | HyperAI超神经