
摘要
源分离模型通常在频谱图(spectrogram)或波形(waveform)域中运行。在本研究中,我们提出了一种端到端的混合源分离方法,使模型能够自主判断每种声源最适合在哪个域进行处理,甚至可同时结合两种域的优势。所提出的Demucs架构的混合版本在索尼公司主办的2021年音乐分离挑战赛(Music Demixing Challenge 2021)中夺得冠军。该架构还引入了多项改进,包括压缩残差分支(compressed residual branches)、局部注意力机制(local attention)以及奇异值正则化(singular value regularization)。总体而言,在MusDB HQ数据集上的评估显示,所有声源的信干比(Signal-to-Distortion Ratio, SDR)平均提升了1.4 dB。这一性能提升也得到了人工主观评价的验证:整体音质评分为2.83分(非混合版本Demucs为2.36分),且无干扰(contamination)评分达到3.04分(非混合版本为2.37分,竞赛中第二名模型为2.44分)。
代码仓库
facebookresearch/demucs
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| music-source-separation-on-musdb18 | Hybrid Demucs | SDR (avg): 7.72 SDR (bass): 8.67 SDR (drums): 8.58 SDR (other): 5.59 SDR (vocals): 8.04 |
| music-source-separation-on-musdb18-hq | Hybrid Demucs | SDR (avg): 7.68 SDR (bass): 8.76 SDR (drums): 8.24 SDR (others): 5.59 SDR (vocals): 8.13 |