3 个月前

Sudo rm -rf:面向通用音频源分离的高效网络

Sudo rm -rf:面向通用音频源分离的高效网络

摘要

本文提出了一种高效神经网络,用于端到端的通用音频源分离任务。具体而言,该卷积网络的骨干结构为多分辨率特征的逐级下采样与重采样(SuDoRMRF),并通过简单的1维卷积实现特征聚合。该设计使得我们在有限的浮点运算量、内存占用、参数数量以及延迟条件下,仍能实现高质量的音频源分离效果。在语音与环境声音分离数据集上的实验结果表明,SuDoRMRF在性能上可与现有最先进方法相媲美,甚至在部分场景下超越它们,且所需计算资源显著更低。

代码仓库

mpariente/asteroid
pytorch
GitHub 中提及
etzinis/sudo_rm_rf
官方
pytorch
GitHub 中提及
udase-chime2023/baseline
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-whamrSudo rm -rf (U=16)
SI-SDRi: 12.1
speech-separation-on-wsj0-2mixSudo rm -rf XL
SI-SDRi: 18.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Sudo rm -rf:面向通用音频源分离的高效网络 | 论文 | HyperAI超神经