3 个月前

计算与内存高效的通用声音源分离

计算与内存高效的通用声音源分离

摘要

近年来,以深度学习为主导的音频源分离技术取得了显著进展,使得多种神经网络模型能够为这一基础性估计问题提供稳健的解决方案。在本研究中,我们提出了一类面向通用音频源分离任务的高效神经网络架构,同时重点关注制约神经网络在真实场景中应用的多重计算因素。该卷积网络的核心结构为多分辨率特征的逐级下采样与重采样机制(SuDoRM-RF),其特征聚合过程通过简单的二维卷积实现。该机制使我们的模型能够在多种复杂场景下实现高保真度的信号分离,尤其适用于源数量可变且计算资源受限(如浮点运算量、内存占用、参数量及延迟)的情况。实验结果表明,SuDoRM-RF模型在性能上可与甚至超越多个最先进的基准方法,而其计算资源消耗却显著更低。此外,SuDoRM-RF的因果版本在实时语音分离任务中实现了约10 dB的尺度不变信号失真比提升(SI-SDRi),同时在笔记本电脑设备上运行速度最高可达实时速度的20倍。

代码仓库

etzinis/sudo_rm_rf
官方
pytorch
GitHub 中提及
udase-chime2023/baseline
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-whamrImproved Sudo rm -rf (U=36)
SI-SDRi: 13.5
speech-separation-on-wsj0-2mixSudo rm -rf (U=36)
SI-SDRi: 19.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
计算与内存高效的通用声音源分离 | 论文 | HyperAI超神经