3 个月前

单耳语音增强:基于复数卷积块注意力模块与联合时频损失函数

单耳语音增强:基于复数卷积块注意力模块与联合时频损失函数

摘要

深度复数U-Net结构与卷积循环网络(Convolutional Recurrent Network, CRN)在单通道语音增强任务中取得了当前最优的性能。这两种结构均为带有跳跃连接的编码器-解码器架构,其性能高度依赖于复数卷积层的表征能力。本文提出一种复数卷积块注意力模块(Complex Convolutional Block Attention Module, CCBAM),通过构建更具信息量的特征来增强复数卷积层的表征能力。CCBAM是一种轻量化且通用的模块,可无缝集成至任意复数卷积层中。我们将CCBAM分别与深度复数U-Net和CRN结合,显著提升了二者在语音增强任务中的性能表现。此外,本文进一步提出一种混合损失函数,用于在时频域(Time-Frequency, TF)和时域两个空间中联合优化复数模型。通过融合CCBAM与混合损失函数,我们构建了一种新的端到端(End-to-End, E2E)复数语音增强框架。消融实验与客观评估结果表明,所提出方法在性能上具有显著优势(项目开源地址:https://github.com/modelscope/ClearerVoice-Studio)。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
单耳语音增强:基于复数卷积块注意力模块与联合时频损失函数 | 论文 | HyperAI超神经