
摘要
语音分离模型在许多语音处理应用中用于隔离个别说话者。深度学习模型已经在多个语音分离基准测试中展现出领先的结果。其中一类被称为时间卷积网络(Temporal Convolutional Networks, TCNs)的模型在语音分离任务中显示出良好的效果。这些模型的一个局限性在于它们具有固定的感受野(Receptive Field, RF)。最近在语音去混响领域的研究表明,TCN 的最佳感受野会随着语音信号的混响特性而变化。在这项工作中,提出了可变形卷积作为解决方案,使 TCN 模型能够拥有动态的感受野,以适应不同混响时间下的混响语音分离任务。所提出的模型在 WHAMR 基准测试上,相对于输入信号平均提升了 11.1 分贝的尺度不变信噪比(Scale-Invariant Signal-to-Distortion Ratio, SISDR)。此外,提出了一种参数量为 1.3 百万的相对较小的可变形 TCN 模型,其分离性能与更大且计算复杂度更高的模型相当。
代码仓库
jwr1995/dtcn
官方
pytorch
GitHub 中提及
jwr1995/pubsep
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-separation-on-whamr | Deformable TCN + Dynamic Mixing | MACs (G): 3.7 Number of parameters (M): 3.6 SDRi: 10.3 SI-SDRi: 11.1 |
| speech-separation-on-whamr | Deformable TCN + Shared Weights + Dynamic Mixing | MACs (G): 3.7 Number of parameters (M): 1.3 SDRi: 9.5 SI-SDRi: 10.1 |
| speech-separation-on-wsj0-2mix | Deformable TCN + Dynamic Mixing | MACs (G): 3.7 Number of parameters (M): 3.6 SDRi: 17.4 SI-SDRi: 17.2 |
| speech-separation-on-wsj0-2mix | Deformable TCN + Shared Weights + Dynamic Mixing | MACs (G): 3.7 Number of parameters (M): 1.3 SDRi: 16.3 SI-SDRi: 16.1 |