3 个月前

混合谱图与波形源分离

混合谱图与波形源分离

摘要

源分离模型通常在频谱图(spectrogram)或波形(waveform)域中运行。在本研究中,我们提出了一种端到端的混合源分离方法,使模型能够自主判断每种声源最适合在哪个域进行处理,甚至可同时结合两种域的优势。所提出的Demucs架构的混合版本在索尼公司主办的2021年音乐分离挑战赛(Music Demixing Challenge 2021)中夺得冠军。该架构还引入了多项改进,包括压缩残差分支(compressed residual branches)、局部注意力机制(local attention)以及奇异值正则化(singular value regularization)。总体而言,在MusDB HQ数据集上的评估显示,所有声源的信干比(Signal-to-Distortion Ratio, SDR)平均提升了1.4 dB。这一性能提升也得到了人工主观评价的验证:整体音质评分为2.83分(非混合版本Demucs为2.36分),且无干扰(contamination)评分达到3.04分(非混合版本为2.37分,竞赛中第二名模型为2.44分)。

代码仓库

facebookresearch/demucs
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
music-source-separation-on-musdb18Hybrid Demucs
SDR (avg): 7.72
SDR (bass): 8.67
SDR (drums): 8.58
SDR (other): 5.59
SDR (vocals): 8.04
music-source-separation-on-musdb18-hqHybrid Demucs
SDR (avg): 7.68
SDR (bass): 8.76
SDR (drums): 8.24
SDR (others): 5.59
SDR (vocals): 8.13

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
混合谱图与波形源分离 | 论文 | HyperAI超神经