4 个月前

基于发音加权的多膨胀时间卷积网络用于单声道语音去混响

基于发音加权的多膨胀时间卷积网络用于单声道语音去混响

摘要

语音去混响是许多语音技术应用中的一个重要环节。近年来,该领域的研究主要集中在深度神经网络模型上。时间卷积网络(TCNs)是一种被提出用于序列建模的深度学习模型,特别适用于语音去混响任务。在本研究中,提出了一种加权多膨胀深度可分离卷积来替代TCN模型中的标准深度可分离卷积。这种提出的卷积方法使得TCN能够在网络的每个卷积块中动态地关注其感受野内的局部信息或更广泛的信息。实验结果表明,这种加权多膨胀时间卷积网络(WD-TCN)在各种模型配置下均优于传统的TCN,并且使用WD-TCN模型比增加卷积块的数量更能高效地提升模型性能。相对于基线TCN,最佳性能改进达到了0.55分贝的尺度不变信号干扰比(SISDR),而表现最好的WD-TCN模型在WHAMR数据集上达到了12.26分贝的SISDR。

代码仓库

jwr1995/wd-tcn
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-dereverberation-on-whamrWD-TCN
ESTOI: 93.5
PESQ: 3.5
SI-SDR: 12.26
SRMR: 8.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于发音加权的多膨胀时间卷积网络用于单声道语音去混响 | 论文 | HyperAI超神经