3 个月前

一种用于语音分离的高效编码器-解码器架构及其自顶向下的注意力机制

一种用于语音分离的高效编码器-解码器架构及其自顶向下的注意力机制

摘要

深度神经网络在语音分离任务中展现出优异的前景。然而,在实际应用中,如何在保持低模型复杂度的同时获得良好性能,仍是亟待解决的挑战。本文提出一种受生物启发的高效编码器-解码器架构——TDANet,该架构通过模拟大脑自上而下的注意力机制,在不牺牲性能的前提下显著降低了模型复杂度。TDANet中的自上而下注意力机制由全局注意力(Global Attention, GA)模块与级联式局部注意力(Cascaded Local Attention, LA)层共同实现。GA模块以多尺度声学特征为输入,提取全局注意力信号,并通过直接的自上而下连接对不同尺度的特征进行调制;LA层则以相邻层的特征作为输入,提取局部注意力信号,并以自上而下的方式调制横向输入。在三个基准数据集上的实验结果表明,TDANet始终能够达到与以往最先进(SOTA)方法相当甚至更优的语音分离性能,同时具备更高的计算效率。具体而言,TDANet的乘加操作(MACs)仅相当于先前SOTA模型Sepformer的5%,其CPU推理时间也仅为Sepformer的10%。此外,TDANet的大规模版本在三个数据集上均取得了SOTA性能,其MACs仍仅为Sepformer的10%,CPU推理时间仅为Sepformer的24%。

代码仓库

JusperLee/TDANet
官方
pytorch

基准测试

基准方法指标
speech-separation-on-libri2mixTDANet
SI-SDRi: 16.9
speech-separation-on-libri2mixTDANet Large
SI-SDRi: 17.4
speech-separation-on-whamTDANet Large
SI-SDRi: 15.2
speech-separation-on-whamTDANet
SI-SDRi: 14.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于语音分离的高效编码器-解码器架构及其自顶向下的注意力机制 | 论文 | HyperAI超神经