6 个月前

摘要

深度神经网络在语音分离任务中展现出优异的前景。然而，在实际应用中，如何在保持低模型复杂度的同时获得良好性能，仍是亟待解决的挑战。本文提出一种受生物启发的高效编码器-解码器架构——TDANet，该架构通过模拟大脑自上而下的注意力机制，在不牺牲性能的前提下显著降低了模型复杂度。TDANet中的自上而下注意力机制由全局注意力（Global Attention, GA）模块与级联式局部注意力（Cascaded Local Attention, LA）层共同实现。GA模块以多尺度声学特征为输入，提取全局注意力信号，并通过直接的自上而下连接对不同尺度的特征进行调制；LA层则以相邻层的特征作为输入，提取局部注意力信号，并以自上而下的方式调制横向输入。在三个基准数据集上的实验结果表明，TDANet始终能够达到与以往最先进（SOTA）方法相当甚至更优的语音分离性能，同时具备更高的计算效率。具体而言，TDANet的乘加操作（MACs）仅相当于先前SOTA模型Sepformer的5%，其CPU推理时间也仅为Sepformer的10%。此外，TDANet的大规模版本在三个数据集上均取得了SOTA性能，其MACs仍仅为Sepformer的10%，CPU推理时间仅为Sepformer的24%。

源 PDF