8 个月前

卷积神经网络

音频和语音处理

William Ravenscroft Stefan Goetze Thomas Hain

摘要

语音分离模型在许多语音处理应用中用于隔离个别说话者。深度学习模型已经在多个语音分离基准测试中展现出领先的结果。其中一类被称为时间卷积网络（Temporal Convolutional Networks, TCNs）的模型在语音分离任务中显示出良好的效果。这些模型的一个局限性在于它们具有固定的感受野（Receptive Field, RF）。最近在语音去混响领域的研究表明，TCN 的最佳感受野会随着语音信号的混响特性而变化。在这项工作中，提出了可变形卷积作为解决方案，使 TCN 模型能够拥有动态的感受野，以适应不同混响时间下的混响语音分离任务。所提出的模型在 WHAMR 基准测试上，相对于输入信号平均提升了 11.1 分贝的尺度不变信噪比（Scale-Invariant Signal-to-Distortion Ratio, SISDR）。此外，提出了一种参数量为 1.3 百万的相对较小的可变形 TCN 模型，其分离性能与更大且计算复杂度更高的模型相当。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

音频和语音处理

William Ravenscroft Stefan Goetze Thomas Hain

摘要

语音分离模型在许多语音处理应用中用于隔离个别说话者。深度学习模型已经在多个语音分离基准测试中展现出领先的结果。其中一类被称为时间卷积网络（Temporal Convolutional Networks, TCNs）的模型在语音分离任务中显示出良好的效果。这些模型的一个局限性在于它们具有固定的感受野（Receptive Field, RF）。最近在语音去混响领域的研究表明，TCN 的最佳感受野会随着语音信号的混响特性而变化。在这项工作中，提出了可变形卷积作为解决方案，使 TCN 模型能够拥有动态的感受野，以适应不同混响时间下的混响语音分离任务。所提出的模型在 WHAMR 基准测试上，相对于输入信号平均提升了 11.1 分贝的尺度不变信噪比（Scale-Invariant Signal-to-Distortion Ratio, SISDR）。此外，提出了一种参数量为 1.3 百万的相对较小的可变形 TCN 模型，其分离性能与更大且计算复杂度更高的模型相当。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供