Jia Qi YipShengkui ZhaoYukun MaChongjia NiChong ZhangHao WangTrung Hieu NguyenKun ZhouDianwen NgEng Siong ChngBin Ma

摘要
双路径(Dual-path)是语音分离模型(如Sepformer)中一种流行的架构,其将长序列分割为重叠的块,分别在块内(intra-block)和块间(inter-block)进行建模,以捕捉块内局部特征与块间全局关系。然而,研究发现,构成双路径模型一半参数量的块间模块对性能提升贡献甚微。为此,我们提出单路径全局调制(Single-Path Global Modulation, SPGM)模块,用于替代原有的块间模块。SPGM模块名称源于其结构设计:由一个无参数的全局池化模块,后接一个仅占模型总参数量2%的调制模块构成。该设计使模型中所有Transformer层均可专注于局部特征建模,从而实现全模型的单路径结构。在WSJ0-2Mix数据集上,SPGM达到22.1 dB的SI-SDRi性能,在Libri2Mix数据集上达到20.4 dB,分别较Sepformer提升0.5 dB和0.3 dB,且在性能上达到甚至超越近期最先进模型水平,同时参数量最多可减少至其1/8。相关模型与权重已发布于Hugging Face:huggingface.co/yipjiaqi/spgm。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-separation-on-wsj0-2mix | SPGM + DM | MACs (G): 77 Number of parameters (M): 26.2 SI-SDRi: 22.7 |
| speech-separation-on-wsj0-2mix | SPGM | MACs (G): 77 Number of parameters (M): 26.2 SI-SDRi: 22.1 |