
摘要
近年来,基于深度学习的音乐源分离方法层出不穷。一些先进的方法表明,通过堆叠大量网络层并引入大量跳跃连接,能够显著提升信噪比(SDR)性能。尽管此类深度且复杂的网络架构表现出卓越的分离效果,但通常需要消耗大量的计算资源,并在训练与推理阶段耗费较多时间。本文提出了一种用于音乐解混的双流神经网络——KUIELab-MDX-Net,该模型在性能与资源消耗之间取得了良好的平衡。所提出的网络包含一个时频域分支和一个时域分支,两个分支分别对音轨进行分离,随后融合两路输出以生成最终的分离结果。在2021年ISMIR音乐解混挑战赛(Music Demixing Challenge)中,KUIELab-MDX-Net在Leaderboard A中获得第二名,在Leaderboard B中位列第三。本文还总结了该模型在另一个基准数据集MUSDB18上的实验结果。相关源代码已公开发布于网络。
代码仓库
kuielab/mdx-net
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| music-source-separation-on-musdb18 | KUIELab-MDX-Net | SDR (avg): 7.54 SDR (bass): 7.86 SDR (drums): 7.33 SDR (other): 5.95 SDR (vocals): 9.00 |
| music-source-separation-on-musdb18-hq | KUIELab-MDX-Net | SDR (avg): 7.47 SDR (bass): 7.83 SDR (drums): 7.20 SDR (others): 5.90 SDR (vocals): 8.97 |