Michele MancusiEmilian PostolacheGiorgio MarianiMarco FumeroAndrea SantilliLuca CosmoEmanuele Rodolà

摘要
当前最先进的音频源分离模型依赖于监督式数据驱动方法,这类方法在标注资源方面成本较高。另一方面,无需任何直接监督的训练方法通常对内存和计算时间需求极高,难以在推理阶段实际应用。为克服上述局限,本文提出一种简单而高效的无监督分离算法,该算法直接作用于时域信号的潜在表示。该方法利用预训练的自回归网络作为深度贝叶斯先验,建模各个声源的概率分布。通过引入一种新颖的损失函数,对离散潜在空间施加精确的算术结构,从而利用其低基数特性,实现无需依赖近似策略的精确贝叶斯推断。我们在Slakh数据集(arXiv:1909.08494)上验证了所提方法,实验结果与当前最先进的监督式方法相当,同时相较于其他无监督方法显著降低了资源消耗。
代码仓库
michelemancusi/LQVAE-separation
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| music-source-separation-on-slakh2100 | LQ-VAE + Scalable Transformer | SDR (bass): 7.42 SDR (drums): 5.83 |