HyperAIHyperAI

Command Palette

Search for a command to run...

一种用于语音分离的高效编码器-解码器架构及其自顶向下的注意力机制

Kai Li Runxuan Yang Xiaolin Hu

摘要

深度神经网络在语音分离任务中展现出优异的前景。然而,在实际应用中,如何在保持低模型复杂度的同时获得良好性能,仍是亟待解决的挑战。本文提出一种受生物启发的高效编码器-解码器架构——TDANet,该架构通过模拟大脑自上而下的注意力机制,在不牺牲性能的前提下显著降低了模型复杂度。TDANet中的自上而下注意力机制由全局注意力(Global Attention, GA)模块与级联式局部注意力(Cascaded Local Attention, LA)层共同实现。GA模块以多尺度声学特征为输入,提取全局注意力信号,并通过直接的自上而下连接对不同尺度的特征进行调制;LA层则以相邻层的特征作为输入,提取局部注意力信号,并以自上而下的方式调制横向输入。在三个基准数据集上的实验结果表明,TDANet始终能够达到与以往最先进(SOTA)方法相当甚至更优的语音分离性能,同时具备更高的计算效率。具体而言,TDANet的乘加操作(MACs)仅相当于先前SOTA模型Sepformer的5%,其CPU推理时间也仅为Sepformer的10%。此外,TDANet的大规模版本在三个数据集上均取得了SOTA性能,其MACs仍仅为Sepformer的10%,CPU推理时间仅为Sepformer的24%。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于语音分离的高效编码器-解码器架构及其自顶向下的注意力机制 | 论文 | HyperAI超神经