3 个月前

MossFormer2:结合Transformer与无RNN循环网络以增强时域单声道语音分离

MossFormer2:结合Transformer与无RNN循环网络以增强时域单声道语音分离

摘要

我们此前提出的MossFormer在单声道语音分离任务中取得了令人瞩目的性能表现。然而,该模型主要依赖基于自注意力机制的MossFormer模块,其倾向于捕捉长距离、粗粒度的依赖关系,而在有效建模细粒度的循环模式方面存在不足。本文提出一种新型混合模型,通过将循环模块融入MossFormer框架,实现了对长距离粗粒度依赖与细粒度循环模式的联合建模能力。与传统采用递归连接的循环神经网络(RNN)不同,我们设计了一种基于前馈序列记忆网络(Feedforward Sequential Memory Network, FSMN)的循环模块,该模块因其无需使用递归连接即可捕捉循环模式,被视作“无RNN”型循环网络。该循环模块主要由一种增强型空洞FSMN块构成,其中引入了门控卷积单元(Gated Convolutional Units, GCU)和密集连接结构。此外,还增加了瓶颈层与输出层,以实现对信息流的有效调控。整个循环模块依赖线性投影与卷积操作,支持对序列的无缝、并行处理。集成后的MossFormer2混合模型在WSJ0-2mix、WSJ0-3mix、Libri2Mix以及WHAM!/WHAMR!等多个基准测试中均显著优于原始MossFormer,并超越了其他现有最先进方法(详见:https://github.com/modelscope/ClearerVoice-Studio)。

代码仓库

alibabasglab/MossFormer2
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-libri2mixMossFormer2 (w/o DM)
SI-SDRi: 21.7
speech-separation-on-libri2mixMossFormer2 (w speed perturb)
SI-SDRi: 22.2
speech-separation-on-whamMossFormer2
SI-SDRi: 18.1
speech-separation-on-whamrMossFormer2
SI-SDRi: 17.0
speech-separation-on-wsj0-2mixMossFormer2 (L)
Number of parameters (M): 55.7
SI-SDRi: 24.1
speech-separation-on-wsj0-3mixMossFormer2
SI-SDRi: 22.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MossFormer2:结合Transformer与无RNN循环网络以增强时域单声道语音分离 | 论文 | HyperAI超神经