
摘要
语音去混响在鲁棒语音处理任务中通常是重要的需求。监督深度学习(DL)模型在单通道语音去混响任务中表现出最先进的性能。时间卷积网络(TCNs)在语音增强任务中常用于序列建模。TCNs的一个特点是其感受野(RF)取决于特定的模型配置,这决定了生成单个输出帧时可以观察到的输入帧数量。已有研究表明,TCNs能够对模拟语音数据进行去混响处理,但在文献中尚缺乏对其感受野的深入分析。本文分析了TCNs的去混响性能与其模型大小和感受野的关系。实验使用了扩展后的WHAMR语料库,该语料库包含了具有更大T60值的房间脉冲响应(RIRs),结果表明,在训练较小的TCN模型时,更大的感受野可以显著提高性能。此外,研究还证明了当处理具有较大RT60值的RIRs时,TCNs从更宽的感受野中受益。注释:- T60值:表示声学环境中声音衰减60分贝所需的时间,是衡量房间混响程度的重要参数。- RT60值:与T60值相同,通常用于描述房间脉冲响应中的混响时间。
代码仓库
jwr1995/whamr_ext
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-dereverberation-on-whamr | Conv-TasNet DAE | ESTOI: 93 PESQ: 3.46 SI-SDR: 12.03 SI-SDRi: 7.63 SRMR: 8.7 |
| speech-dereverberation-on-whamr-ext | Conv-TasNet DAE | ESTOI: 81 PESQ: 2.46 SI-SDR: 7.07 SI-SDRi: 10.81 SRMR: 9.18 |