3 个月前

SPGM:优先关注局部特征以提升语音分离性能

SPGM:优先关注局部特征以提升语音分离性能

摘要

双路径(Dual-path)是语音分离模型(如Sepformer)中一种流行的架构,其将长序列分割为重叠的块,分别在块内(intra-block)和块间(inter-block)进行建模,以捕捉块内局部特征与块间全局关系。然而,研究发现,构成双路径模型一半参数量的块间模块对性能提升贡献甚微。为此,我们提出单路径全局调制(Single-Path Global Modulation, SPGM)模块,用于替代原有的块间模块。SPGM模块名称源于其结构设计:由一个无参数的全局池化模块,后接一个仅占模型总参数量2%的调制模块构成。该设计使模型中所有Transformer层均可专注于局部特征建模,从而实现全模型的单路径结构。在WSJ0-2Mix数据集上,SPGM达到22.1 dB的SI-SDRi性能,在Libri2Mix数据集上达到20.4 dB,分别较Sepformer提升0.5 dB和0.3 dB,且在性能上达到甚至超越近期最先进模型水平,同时参数量最多可减少至其1/8。相关模型与权重已发布于Hugging Face:huggingface.co/yipjiaqi/spgm。

基准测试

基准方法指标
speech-separation-on-wsj0-2mixSPGM + DM
MACs (G): 77
Number of parameters (M): 26.2
SI-SDRi: 22.7
speech-separation-on-wsj0-2mixSPGM
MACs (G): 77
Number of parameters (M): 26.2
SI-SDRi: 22.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SPGM:优先关注局部特征以提升语音分离性能 | 论文 | HyperAI超神经