3 个月前

用于音乐源分离的混合Transformer

用于音乐源分离的混合Transformer

摘要

在音乐源分离(Music Source Separation, MSS)领域,一个自然提出的问题是:长程上下文信息是否具有实际价值,抑或仅依赖局部声学特征即可满足需求。在其他研究领域中,基于注意力机制的Transformer模型已展现出有效整合长序列信息的能力。本文提出了一种新型混合Transformer-DeMucs(HT DeMucs)架构,该模型基于混合DeMucs结构,采用时空-频谱双U-Net设计,其中最内层结构被一个跨域Transformer编码器所替代,该编码器在单一域内使用自注意力机制,在不同域之间采用交叉注意力机制。实验表明,当仅在MUSDB数据集上训练时,该模型表现不佳;然而,当额外引入800首训练歌曲后,其在信噪比(SDR)指标上相比原始混合DeMucs(在同一数据集上训练)提升了0.45 dB。通过引入稀疏注意力核以扩展感受野,并结合按源微调策略,该模型在使用额外训练数据的情况下,于MUSDB基准上取得了当前最优性能,达到9.20 dB的SDR,实现了该任务的最新技术水平。

代码仓库

基准测试

基准方法指标
music-source-separation-on-musdb18Sparse HT Demucs (fine tuned)
SDR (avg): 9.20
SDR (bass): 10.47
SDR (drums): 10.83
SDR (other): 6.41
SDR (vocals): 9.37
music-source-separation-on-musdb18Hybrid Transformer Demucs (f.t.)
SDR (avg): 9.00
SDR (bass): 9.78
SDR (drums): 10.08
SDR (other): 6.42
SDR (vocals): 9.20
music-source-separation-on-musdb18-hqHybrid Transformer Demucs (f.t.)
SDR (avg): 9.00
SDR (bass): 10.39
SDR (drums): 10.08
SDR (others): 6.32
SDR (vocals): 9.20
music-source-separation-on-musdb18-hqSparse HT Demucs (fine tuned)
SDR (avg): 9.20
SDR (bass): 10.47
SDR (drums): 10.83
SDR (others): 6.41
SDR (vocals): 9.37
speech-enhancement-on-ears-whamDemucs v4
DNSMOS: 3.66
ESTOI: 0.71
PESQ-WB: 2.37
POLQA: 2.97
SI-SDR: 16.92
SIGMOS: 2.87

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于音乐源分离的混合Transformer | 论文 | HyperAI超神经