3 个月前

双信号变换LSTM网络用于实时降噪

双信号变换LSTM网络用于实时降噪

摘要

本文提出了一种用于实时语音增强的双信号变换长短期记忆网络(Dual-Signal Transformation LSTM Network, DTLN),作为深度降噪挑战赛(Deep Noise Suppression Challenge, DNS-Challenge)的一部分。该方法采用级联网络结构,融合了短时傅里叶变换(Short-Time Fourier Transform, STFT)与可学习的分析-合成基函数,模型参数量不足一百万。网络在挑战赛组织方提供的500小时带噪语音数据上进行训练,具备实时处理能力(输入一帧,输出一帧),并取得了具有竞争力的性能表现。通过结合两种信号变换方式,DTLN能够稳健地从幅度谱中提取信息,并利用可学习特征基函数中的相位信息,从而提升语音重建质量。该方法在主观意见评分(Mean Opinion Score, MOS)上达到了当前最优水平,相较于DNS-Challenge基准模型提升了0.24分(绝对值)。

代码仓库

breizhn/DTLN
官方
tf
GitHub 中提及

基准测试

基准方法指标
speech-enhancement-on-deep-noise-suppressionDTLN
PESQ-NB: 3.04
SI-SDR-WB: 16.34
speech-enhancement-on-whamrDTLN
PESQ: 2.23
SI-SDR: 2.12
ΔPESQ: 0.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
双信号变换LSTM网络用于实时降噪 | 论文 | HyperAI超神经