4 个月前

用于单声道噪声混响语音分离的可变形时域卷积网络

用于单声道噪声混响语音分离的可变形时域卷积网络

摘要

语音分离模型在许多语音处理应用中用于隔离个别说话者。深度学习模型已经在多个语音分离基准测试中展现出领先的结果。其中一类被称为时间卷积网络(Temporal Convolutional Networks, TCNs)的模型在语音分离任务中显示出良好的效果。这些模型的一个局限性在于它们具有固定的感受野(Receptive Field, RF)。最近在语音去混响领域的研究表明,TCN 的最佳感受野会随着语音信号的混响特性而变化。在这项工作中,提出了可变形卷积作为解决方案,使 TCN 模型能够拥有动态的感受野,以适应不同混响时间下的混响语音分离任务。所提出的模型在 WHAMR 基准测试上,相对于输入信号平均提升了 11.1 分贝的尺度不变信噪比(Scale-Invariant Signal-to-Distortion Ratio, SISDR)。此外,提出了一种参数量为 1.3 百万的相对较小的可变形 TCN 模型,其分离性能与更大且计算复杂度更高的模型相当。

代码仓库

jwr1995/dtcn
官方
pytorch
GitHub 中提及
jwr1995/pubsep
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-whamrDeformable TCN + Dynamic Mixing
MACs (G): 3.7
Number of parameters (M): 3.6
SDRi: 10.3
SI-SDRi: 11.1
speech-separation-on-whamrDeformable TCN + Shared Weights + Dynamic Mixing
MACs (G): 3.7
Number of parameters (M): 1.3
SDRi: 9.5
SI-SDRi: 10.1
speech-separation-on-wsj0-2mixDeformable TCN + Dynamic Mixing
MACs (G): 3.7
Number of parameters (M): 3.6
SDRi: 17.4
SI-SDRi: 17.2
speech-separation-on-wsj0-2mixDeformable TCN + Shared Weights + Dynamic Mixing
MACs (G): 3.7
Number of parameters (M): 1.3
SDRi: 16.3
SI-SDRi: 16.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于单声道噪声混响语音分离的可变形时域卷积网络 | 论文 | HyperAI超神经