3 个月前

探索自注意力机制在语音分离中的应用

探索自注意力机制在语音分离中的应用

摘要

Transformer架构在深度学习领域带来了显著的性能提升。相较于循环神经网络和卷积神经网络,Transformer在诸多任务中表现出更优的性能,同时充分利用了并行计算的优势。近期,我们提出了SepFormer模型,在WSJ0-2/3 Mix数据集上的语音分离任务中达到了当前最优水平。本文对Transformer在语音分离任务中的应用进行了深入研究。具体而言,我们在先前关于SepFormer的研究基础上,进一步在更具挑战性的噪声环境和混响噪声数据集(如LibriMix、WHAM!和WHAMR!)上进行了实验,验证了模型的鲁棒性与泛化能力。此外,我们将模型拓展至语音增强任务,针对去噪与去混响任务提供了充分的实验验证。最后,本文首次在语音分离任务中探索了高效的自注意力机制,包括Linformer、Longformer与Reformer。实验结果表明,这些机制可显著降低模型的内存占用。例如,我们发现基于Reformer的自注意力机制在WSJ0-2Mix数据集上的表现优于广受认可的Conv-TasNet模型,同时在推理速度上更具优势,且内存消耗与之相当。

代码仓库

基准测试

基准方法指标
speech-enhancement-on-whamSepFormer
PESQ: 3.07
SDR: 15.04
SI-SNR: 14.35
speech-enhancement-on-whamrSepFormer
PESQ: 2.84
SDR: 12.29
SI-SNR: 10.58

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索自注意力机制在语音分离中的应用 | 论文 | HyperAI超神经