3 个月前

语音分离中的注意力机制:一切尽在注意力

语音分离中的注意力机制:一切尽在注意力

摘要

循环神经网络(Recurrent Neural Networks, RNNs)长期以来一直是序列到序列学习中的主流架构。然而,RNN本质上是顺序计算模型,其计算过程难以并行化。相比之下,Transformer架构正逐渐成为标准RNN的自然替代方案,通过多头注意力机制取代循环计算结构。本文提出了一种新型的无RNN架构的Transformer神经网络——SepFormer,用于语音分离任务。SepFormer采用多尺度方法,利用Transformer结构有效建模语音信号的短时与长时依赖关系。在标准的WSJ0-2mix和WSJ0-3mix数据集上,该模型取得了当前最先进的性能:在WSJ0-2mix上达到22.3 dB的SI-SNRi指标,在WSJ0-3mix上达到19.5 dB的SI-SNRi指标。SepFormer继承了Transformer架构的并行计算优势,在将编码表示下采样8倍的情况下仍能保持优异性能。因此,与当前最先进的语音分离系统相比,SepFormer不仅运行速度显著更快,而且对内存的需求更低,展现出更强的实用性与效率。

基准测试

基准方法指标
speech-separation-on-wsj0-2mixSepFormer
SDRi: 22.4
SI-SDRi: 22.3
speech-separation-on-wsj0-3mixSepFormer
SI-SDRi: 19.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语音分离中的注意力机制:一切尽在注意力 | 论文 | HyperAI超神经