4 个月前

TF-Locoformer:用于语音分离和增强的具有局部建模功能的卷积变压器

TF-Locoformer:用于语音分离和增强的具有局部建模功能的卷积变压器

摘要

时频(TF)域双路径模型实现了高保真语音分离。尽管一些先前的最先进(SoTA)模型依赖于递归神经网络(RNNs),但这种依赖意味着它们缺乏Transformer块的并行性、可扩展性和灵活性。鉴于纯基于Transformer的架构在其他领域的广泛应用和成功,本研究专注于从TF域双路径模型中移除RNN,同时保持最先进性能。本文提出了一种基于Transformer的模型——TF-Locoformer,该模型通过卷积实现局部建模(LOcal-modeling by COnvolution)。该模型使用带有卷积层的前馈网络(FFNs),而不是线性层,来捕捉局部信息,从而使自注意力机制能够专注于捕捉全局模式。我们在自注意力机制之前和之后各放置了两个这样的FFN,以增强局部建模能力。我们还为TF域双路径模型引入了一种新的归一化方法。实验结果表明,在多个分离和增强数据集上,所提出的模型在无RNN架构下达到了或超过了最先进水平。

代码仓库

基准测试

基准方法指标
speech-enhancement-on-deep-noise-suppressionTF-Locoformer (M)
FLOPS (G): 497.24
Number of parameters (M): 15
PESQ-WB: 3.72
SI-SDR-WB: 23.3
STOI: 98.8
speech-separation-on-libri2mixTF-Locoformer (M)
Number of parameters (M): 15
SDRi: 22.2
SI-SDRi: 22.1
speech-separation-on-whamrTF-Locoformer (M)
Number of parameters (M): 15
SDRi: 16.9
SI-SDRi: 18.5
speech-separation-on-whamrTF-Locoformer (S)
Number of parameters (M): 5
SDRi: 15.9
SI-SDRi: 17.4
speech-separation-on-wsj0-2mixTF-Locoformer (S) + DM
Number of parameters (M): 5.0
SDRi: 23
SI-SDRi: 22.8
speech-separation-on-wsj0-2mixTF-Locoformer (M)
Number of parameters (M): 15.0
SDRi: 23.8
SI-SDRi: 23.6
speech-separation-on-wsj0-2mixTF-Locoformer (L) + DM
Number of parameters (M): 22.5
SDRi: 25.2
SI-SDRi: 25.1
speech-separation-on-wsj0-2mixTF-Locoformer (S)
Number of parameters (M): 5.0
SDRi: 22.1
SI-SDRi: 22
speech-separation-on-wsj0-2mixTF-Locoformer (M) + DM
Number of parameters (M): 15.0
SDRi: 24.7
SI-SDRi: 24.6
speech-separation-on-wsj0-2mixTF-Locoformer (L)
Number of parameters (M): 22.5
SDRi: 24.3
SI-SDRi: 24.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TF-Locoformer:用于语音分离和增强的具有局部建模功能的卷积变压器 | 论文 | HyperAI超神经