3 个月前

D3Net:用于音乐源分离的密集连接多膨胀DenseNet

D3Net:用于音乐源分离的密集连接多膨胀DenseNet

摘要

音乐源分离需要处理较大的输入感受野,以建模音频信号的长期依赖关系。以往基于卷积神经网络(CNN)的方法通常通过逐层下采样与上采样特征图,或采用空洞卷积(dilated convolution)来实现大感受野的建模。本文强调了在单个卷积层中实现感受野快速扩张以及同时建模多分辨率数据的重要性,提出了一种新型CNN架构——密集连接空洞DenseNet(Densely Connected Dilated DenseNet, D3Net)。D3Net引入了一种新型的多空洞卷积(multi-dilated convolution)机制,该机制在单一层内采用不同的空洞因子,从而能够并行建模多种分辨率的特征。通过将多空洞卷积与DenseNet架构相结合,D3Net有效避免了在直接将空洞卷积嵌入DenseNet时可能出现的混叠(aliasing)问题。在MUSDB18数据集上的实验结果表明,D3Net取得了当前最优的性能,平均信噪比失真度(Signal-to-Distortion Ratio, SDR)达到6.01 dB。

基准测试

基准方法指标
music-source-separation-on-musdb18D3Net
SDR (avg): 6.68
SDR (bass): 6.20
SDR (drums): 7.36
SDR (other): 5.37
SDR (vocals): 7.80
music-source-separation-on-musdb18D3Net
SDR (avg): 6.01
SDR (bass): 5.25
SDR (drums): 7.01
SDR (other): 4.53
SDR (vocals): 7.24

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
D3Net:用于音乐源分离的密集连接多膨胀DenseNet | 论文 | HyperAI超神经