Shengkui ZhaoYukun MaChongjia NiChong ZhangHao WangTrung Hieu NguyenKun ZhouJiaqi YipDianwen NgBin Ma

摘要
我们此前提出的MossFormer在单声道语音分离任务中取得了令人瞩目的性能表现。然而,该模型主要依赖基于自注意力机制的MossFormer模块,其倾向于捕捉长距离、粗粒度的依赖关系,而在有效建模细粒度的循环模式方面存在不足。本文提出一种新型混合模型,通过将循环模块融入MossFormer框架,实现了对长距离粗粒度依赖与细粒度循环模式的联合建模能力。与传统采用递归连接的循环神经网络(RNN)不同,我们设计了一种基于前馈序列记忆网络(Feedforward Sequential Memory Network, FSMN)的循环模块,该模块因其无需使用递归连接即可捕捉循环模式,被视作“无RNN”型循环网络。该循环模块主要由一种增强型空洞FSMN块构成,其中引入了门控卷积单元(Gated Convolutional Units, GCU)和密集连接结构。此外,还增加了瓶颈层与输出层,以实现对信息流的有效调控。整个循环模块依赖线性投影与卷积操作,支持对序列的无缝、并行处理。集成后的MossFormer2混合模型在WSJ0-2mix、WSJ0-3mix、Libri2Mix以及WHAM!/WHAMR!等多个基准测试中均显著优于原始MossFormer,并超越了其他现有最先进方法(详见:https://github.com/modelscope/ClearerVoice-Studio)。
代码仓库
alibabasglab/MossFormer2
pytorch
GitHub 中提及
modelscope/ClearerVoice-Studio
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-separation-on-libri2mix | MossFormer2 (w/o DM) | SI-SDRi: 21.7 |
| speech-separation-on-libri2mix | MossFormer2 (w speed perturb) | SI-SDRi: 22.2 |
| speech-separation-on-wham | MossFormer2 | SI-SDRi: 18.1 |
| speech-separation-on-whamr | MossFormer2 | SI-SDRi: 17.0 |
| speech-separation-on-wsj0-2mix | MossFormer2 (L) | Number of parameters (M): 55.7 SI-SDRi: 24.1 |
| speech-separation-on-wsj0-3mix | MossFormer2 | SI-SDRi: 22.2 |