
摘要
语音分离仍是多说话人技术研究中的重要课题。卷积增强型变换器(Conformers)在众多语音处理任务中表现优异,但在语音分离领域的研究仍相对不足。目前多数最先进的分离模型(SOTA)均为时域音频分离网络(TasNet)。一些成功的模型采用了双路径(Dual-Path, DP)网络结构,通过顺序处理局部与全局信息来提升性能。时域Conformer(TD-Conformer)在原理上与DP方法类似,同样采用顺序处理局部与全局上下文信息的方式,但其时间复杂度函数有所不同。研究表明,在实际应用中信号长度较短的情况下,若控制特征维度一致,Conformer模型在计算效率上更具优势。为进一步提升计算效率,本文提出引入下采样层。所提出的最优TD-Conformer模型在WHAMR和WSJ0-2Mix基准测试中,分别实现了14.6 dB和21.2 dB的SISDR(信噪比改善指标)提升。
代码仓库
jwr1995/pubsep
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-separation-on-whamr | TD-Confomer (S) | SI-SDRi: 10.5 |
| speech-separation-on-whamr | TD-Conformer (L) + DM | SI-SDRi: 13.4 |
| speech-separation-on-whamr | TD-Conformer (XL) + DM | SI-SDRi: 14.6 |
| speech-separation-on-whamr | TD-Confomer (M) + DM | SI-SDRi: 12 |
| speech-separation-on-wsj0-2mix | TD-Conformer (XL) + DM | SI-SDRi: 21.2 |