4 个月前

单声道语音去混响中时间卷积网络的感受野分析

单声道语音去混响中时间卷积网络的感受野分析

摘要

语音去混响在鲁棒语音处理任务中通常是重要的需求。监督深度学习(DL)模型在单通道语音去混响任务中表现出最先进的性能。时间卷积网络(TCNs)在语音增强任务中常用于序列建模。TCNs的一个特点是其感受野(RF)取决于特定的模型配置,这决定了生成单个输出帧时可以观察到的输入帧数量。已有研究表明,TCNs能够对模拟语音数据进行去混响处理,但在文献中尚缺乏对其感受野的深入分析。本文分析了TCNs的去混响性能与其模型大小和感受野的关系。实验使用了扩展后的WHAMR语料库,该语料库包含了具有更大T60值的房间脉冲响应(RIRs),结果表明,在训练较小的TCN模型时,更大的感受野可以显著提高性能。此外,研究还证明了当处理具有较大RT60值的RIRs时,TCNs从更宽的感受野中受益。注释:- T60值:表示声学环境中声音衰减60分贝所需的时间,是衡量房间混响程度的重要参数。- RT60值:与T60值相同,通常用于描述房间脉冲响应中的混响时间。

代码仓库

jwr1995/whamr_ext
官方
GitHub 中提及

基准测试

基准方法指标
speech-dereverberation-on-whamrConv-TasNet DAE
ESTOI: 93
PESQ: 3.46
SI-SDR: 12.03
SI-SDRi: 7.63
SRMR: 8.7
speech-dereverberation-on-whamr-extConv-TasNet DAE
ESTOI: 81
PESQ: 2.46
SI-SDR: 7.07
SI-SDRi: 10.81
SRMR: 9.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
单声道语音去混响中时间卷积网络的感受野分析 | 论文 | HyperAI超神经