
摘要
基于深度学习的音乐源分离方法已取得显著进展。然而,在超宽频带音乐源分离任务中,如何在保持低模型复杂度的同时获得优异性能,仍是尚未解决的挑战。以往方法或忽视子带之间的差异,或未能有效应对生成子带特征时的信息损失问题。本文提出一种新型频域网络——SCNet,该方法显式地将混合信号的频谱图分割为多个子带,并引入一种基于稀疏性的编码器来建模不同频率带。对于信息量较少的子带,采用更高的压缩比率以提升信息密度;同时,将建模重点集中于信息量丰富的子带。该策略在显著提升分离性能的同时,大幅降低计算开销。实验结果表明,所提模型在未使用额外数据的情况下,于MUSDB18-HQ数据集上实现了9.0 dB的信号失真比(SDR),优于现有最先进方法。具体而言,SCNet在CPU上的推理时间仅为先前先进模型HT Demucs的48%。
代码仓库
neeraj-j/SCNet
pytorch
GitHub 中提及
starrytong/SCNet
官方
pytorch
GitHub 中提及
amanteur/SCNet-PyTorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| music-source-separation-on-musdb18-hq | SCNet | SDR (avg): 9.00 SDR (bass): 8.82 SDR (drums): 10.51 SDR (others): 6.76 SDR (vocals): 9.89 |
| music-source-separation-on-musdb18-hq | SCNet-large | SDR (avg): 9.69 SDR (bass): 9.49 SDR (drums): 10.98 SDR (others): 7.44 SDR (vocals): 10.86 |