3 个月前

基于U-Net的相位感知单阶段语音去噪与去混响

基于U-Net的相位感知单阶段语音去噪与去混响

摘要

在本工作中,我们提出了一种单阶段框架来解决语音去噪与去混响问题。尽管去噪与去混响通常被视为两个独立且具有挑战性的任务,因而常规方法往往需要分别设计两个处理模块,但我们证明了一个深度神经网络可被共享以同时解决这两类问题。为此,我们提出了一种新型掩码方法——相位感知Beta-Sigmoid掩码(Phase-aware Beta-sigmoid Mask, PHM),该方法通过在复数域中利用混合信号、目标信号与残差信号三者之间的三角不等式关系,复用估计的幅值信息来推断干净语音的相位。我们引入两个PHM分别处理直达成分与混响成分,从而在推理阶段实现对增强语音中混响比例的灵活控制。此外,为提升语音增强性能,我们提出了一种新的时域损失函数,并在实验中验证其相较于复数域中的均方误差(MSE)损失具有更优的性能表现。最后,为实现实时推理,我们提出了一种针对U-Net结构的优化策略,相较原始版本显著降低了高达88.9%的计算开销。

基准测试

基准方法指标
speech-dereverberation-on-whamrNon-Real-Time MultiScale+
PESQ: 3.16
SI-SDR: 10.4
speech-enhancement-on-deep-noise-suppressionNon-Real-Time MultiScale+
PESQ-NB: 3.01
SI-SDR-WB: 16.22
speech-enhancement-on-whamrNon-Real-Time MultiScale+
PESQ: 1.52
SI-SDR: 5.33

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于U-Net的相位感知单阶段语音去噪与去混响 | 论文 | HyperAI超神经