
摘要
在音乐源分离(Music Source Separation, MSS)领域,一个自然提出的问题是:长程上下文信息是否具有实际价值,抑或仅依赖局部声学特征即可满足需求。在其他研究领域中,基于注意力机制的Transformer模型已展现出有效整合长序列信息的能力。本文提出了一种新型混合Transformer-DeMucs(HT DeMucs)架构,该模型基于混合DeMucs结构,采用时空-频谱双U-Net设计,其中最内层结构被一个跨域Transformer编码器所替代,该编码器在单一域内使用自注意力机制,在不同域之间采用交叉注意力机制。实验表明,当仅在MUSDB数据集上训练时,该模型表现不佳;然而,当额外引入800首训练歌曲后,其在信噪比(SDR)指标上相比原始混合DeMucs(在同一数据集上训练)提升了0.45 dB。通过引入稀疏注意力核以扩展感受野,并结合按源微调策略,该模型在使用额外训练数据的情况下,于MUSDB基准上取得了当前最优性能,达到9.20 dB的SDR,实现了该任务的最新技术水平。
代码仓库
facebookresearch/demucs
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| music-source-separation-on-musdb18 | Sparse HT Demucs (fine tuned) | SDR (avg): 9.20 SDR (bass): 10.47 SDR (drums): 10.83 SDR (other): 6.41 SDR (vocals): 9.37 |
| music-source-separation-on-musdb18 | Hybrid Transformer Demucs (f.t.) | SDR (avg): 9.00 SDR (bass): 9.78 SDR (drums): 10.08 SDR (other): 6.42 SDR (vocals): 9.20 |
| music-source-separation-on-musdb18-hq | Hybrid Transformer Demucs (f.t.) | SDR (avg): 9.00 SDR (bass): 10.39 SDR (drums): 10.08 SDR (others): 6.32 SDR (vocals): 9.20 |
| music-source-separation-on-musdb18-hq | Sparse HT Demucs (fine tuned) | SDR (avg): 9.20 SDR (bass): 10.47 SDR (drums): 10.83 SDR (others): 6.41 SDR (vocals): 9.37 |
| speech-enhancement-on-ears-wham | Demucs v4 | DNSMOS: 3.66 ESTOI: 0.71 PESQ-WB: 2.37 POLQA: 2.97 SI-SDR: 16.92 SIGMOS: 2.87 |