4 个月前

DeFT-AN:多通道语音增强的密集频时注意网络

DeFT-AN:多通道语音增强的密集频时注意网络

摘要

在本研究中,我们提出了一种密集频率-时间注意力网络(DeFT-AN),用于多通道语音增强。DeFT-AN是一种掩模估计网络,能够预测一个复数谱掩模模式,以抑制输入信号短时傅里叶变换(STFT)中嵌入的噪声和混响。所提出的掩模估计网络结合了三种不同类型的块,分别用于聚合空间、频谱和时间维度的信息。该网络利用了一个具有改进前馈网络的频谱变换器和一个具有顺序空洞卷积的时间共形器。通过使用针对音频信号三个不同特征的密集块和变换器,使得DeFT-AN能够在嘈杂和混响环境中实现更加全面的语音增强效果。基于两个流行的噪声和混响数据集,通过多种语音质量和可懂度指标评估,证明了DeFT-AN在最先进的多通道模型中的卓越性能。

代码仓库

基准测试

基准方法指标
speech-dereverberation-on-spatialized-wsjcam0DeFT-AN
PESQ: 3.63
SI-SDR: 15.7
STOI: 0.981
speech-enhancement-on-spatialized-dnsDeFT-AN
PESQ: 3.01
SI-SDR: 9.9
STOI: 0.924

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeFT-AN:多通道语音增强的密集频时注意网络 | 论文 | HyperAI超神经