6 个月前

卷积神经网络

音频和语音处理

Naoya Takahashi Yuki Mitsufuji

摘要

音乐源分离需要处理较大的输入感受野，以建模音频信号的长期依赖关系。以往基于卷积神经网络（CNN）的方法通常通过逐层下采样与上采样特征图，或采用空洞卷积（dilated convolution）来实现大感受野的建模。本文强调了在单个卷积层中实现感受野快速扩张以及同时建模多分辨率数据的重要性，提出了一种新型CNN架构——密集连接空洞DenseNet（Densely Connected Dilated DenseNet, D3Net）。D3Net引入了一种新型的多空洞卷积（multi-dilated convolution）机制，该机制在单一层内采用不同的空洞因子，从而能够并行建模多种分辨率的特征。通过将多空洞卷积与DenseNet架构相结合，D3Net有效避免了在直接将空洞卷积嵌入DenseNet时可能出现的混叠（aliasing）问题。在MUSDB18数据集上的实验结果表明，D3Net取得了当前最优的性能，平均信噪比失真度（Signal-to-Distortion Ratio, SDR）达到6.01 dB。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

音频和语音处理

Naoya Takahashi Yuki Mitsufuji

摘要

音乐源分离需要处理较大的输入感受野，以建模音频信号的长期依赖关系。以往基于卷积神经网络（CNN）的方法通常通过逐层下采样与上采样特征图，或采用空洞卷积（dilated convolution）来实现大感受野的建模。本文强调了在单个卷积层中实现感受野快速扩张以及同时建模多分辨率数据的重要性，提出了一种新型CNN架构——密集连接空洞DenseNet（Densely Connected Dilated DenseNet, D3Net）。D3Net引入了一种新型的多空洞卷积（multi-dilated convolution）机制，该机制在单一层内采用不同的空洞因子，从而能够并行建模多种分辨率的特征。通过将多空洞卷积与DenseNet架构相结合，D3Net有效避免了在直接将空洞卷积嵌入DenseNet时可能出现的混叠（aliasing）问题。在MUSDB18数据集上的实验结果表明，D3Net取得了当前最优的性能，平均信噪比失真度（Signal-to-Distortion Ratio, SDR）达到6.01 dB。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供