
摘要
Transformer架构在深度学习领域带来了显著的性能提升。相较于循环神经网络和卷积神经网络,Transformer在诸多任务中表现出更优的性能,同时充分利用了并行计算的优势。近期,我们提出了SepFormer模型,在WSJ0-2/3 Mix数据集上的语音分离任务中达到了当前最优水平。本文对Transformer在语音分离任务中的应用进行了深入研究。具体而言,我们在先前关于SepFormer的研究基础上,进一步在更具挑战性的噪声环境和混响噪声数据集(如LibriMix、WHAM!和WHAMR!)上进行了实验,验证了模型的鲁棒性与泛化能力。此外,我们将模型拓展至语音增强任务,针对去噪与去混响任务提供了充分的实验验证。最后,本文首次在语音分离任务中探索了高效的自注意力机制,包括Linformer、Longformer与Reformer。实验结果表明,这些机制可显著降低模型的内存占用。例如,我们发现基于Reformer的自注意力机制在WSJ0-2Mix数据集上的表现优于广受认可的Conv-TasNet模型,同时在推理速度上更具优势,且内存消耗与之相当。
代码仓库
speechbrain/speechbrain
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-wham | SepFormer | PESQ: 3.07 SDR: 15.04 SI-SNR: 14.35 |
| speech-enhancement-on-whamr | SepFormer | PESQ: 2.84 SDR: 12.29 SI-SNR: 10.58 |