6 个月前

卷积神经网络

音频和语音处理

Simon Rouard Francisco Massa Alexandre Défossez

摘要

在音乐源分离（Music Source Separation, MSS）领域，一个自然提出的问题是：长程上下文信息是否具有实际价值，抑或仅依赖局部声学特征即可满足需求。在其他研究领域中，基于注意力机制的Transformer模型已展现出有效整合长序列信息的能力。本文提出了一种新型混合Transformer-DeMucs（HT DeMucs）架构，该模型基于混合DeMucs结构，采用时空-频谱双U-Net设计，其中最内层结构被一个跨域Transformer编码器所替代，该编码器在单一域内使用自注意力机制，在不同域之间采用交叉注意力机制。实验表明，当仅在MUSDB数据集上训练时，该模型表现不佳；然而，当额外引入800首训练歌曲后，其在信噪比（SDR）指标上相比原始混合DeMucs（在同一数据集上训练）提升了0.45 dB。通过引入稀疏注意力核以扩展感受野，并结合按源微调策略，该模型在使用额外训练数据的情况下，于MUSDB基准上取得了当前最优性能，达到9.20 dB的SDR，实现了该任务的最新技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

音频和语音处理

Simon Rouard Francisco Massa Alexandre Défossez

摘要

在音乐源分离（Music Source Separation, MSS）领域，一个自然提出的问题是：长程上下文信息是否具有实际价值，抑或仅依赖局部声学特征即可满足需求。在其他研究领域中，基于注意力机制的Transformer模型已展现出有效整合长序列信息的能力。本文提出了一种新型混合Transformer-DeMucs（HT DeMucs）架构，该模型基于混合DeMucs结构，采用时空-频谱双U-Net设计，其中最内层结构被一个跨域Transformer编码器所替代，该编码器在单一域内使用自注意力机制，在不同域之间采用交叉注意力机制。实验表明，当仅在MUSDB数据集上训练时，该模型表现不佳；然而，当额外引入800首训练歌曲后，其在信噪比（SDR）指标上相比原始混合DeMucs（在同一数据集上训练）提升了0.45 dB。通过引入稀疏注意力核以扩展感受野，并结合按源微调策略，该模型在使用额外训练数据的情况下，于MUSDB基准上取得了当前最优性能，达到9.20 dB的SDR，实现了该任务的最新技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供