3 个月前

时域Conformer模型在噪声混响声学环境下的单声道语音分离研究

时域Conformer模型在噪声混响声学环境下的单声道语音分离研究

摘要

语音分离仍是多说话人技术研究中的重要课题。卷积增强型变换器(Conformers)在众多语音处理任务中表现优异,但在语音分离领域的研究仍相对不足。目前多数最先进的分离模型(SOTA)均为时域音频分离网络(TasNet)。一些成功的模型采用了双路径(Dual-Path, DP)网络结构,通过顺序处理局部与全局信息来提升性能。时域Conformer(TD-Conformer)在原理上与DP方法类似,同样采用顺序处理局部与全局上下文信息的方式,但其时间复杂度函数有所不同。研究表明,在实际应用中信号长度较短的情况下,若控制特征维度一致,Conformer模型在计算效率上更具优势。为进一步提升计算效率,本文提出引入下采样层。所提出的最优TD-Conformer模型在WHAMR和WSJ0-2Mix基准测试中,分别实现了14.6 dB和21.2 dB的SISDR(信噪比改善指标)提升。

代码仓库

jwr1995/pubsep
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-whamrTD-Confomer (S)
SI-SDRi: 10.5
speech-separation-on-whamrTD-Conformer (L) + DM
SI-SDRi: 13.4
speech-separation-on-whamrTD-Conformer (XL) + DM
SI-SDRi: 14.6
speech-separation-on-whamrTD-Confomer (M) + DM
SI-SDRi: 12
speech-separation-on-wsj0-2mixTD-Conformer (XL) + DM
SI-SDRi: 21.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
时域Conformer模型在噪声混响声学环境下的单声道语音分离研究 | 论文 | HyperAI超神经