8 个月前

卷积神经网络

音频和语音处理

William Ravenscroft Stefan Goetze Thomas Hain

摘要

语音去混响是许多语音技术应用中的一个重要环节。近年来，该领域的研究主要集中在深度神经网络模型上。时间卷积网络（TCNs）是一种被提出用于序列建模的深度学习模型，特别适用于语音去混响任务。在本研究中，提出了一种加权多膨胀深度可分离卷积来替代TCN模型中的标准深度可分离卷积。这种提出的卷积方法使得TCN能够在网络的每个卷积块中动态地关注其感受野内的局部信息或更广泛的信息。实验结果表明，这种加权多膨胀时间卷积网络（WD-TCN）在各种模型配置下均优于传统的TCN，并且使用WD-TCN模型比增加卷积块的数量更能高效地提升模型性能。相对于基线TCN，最佳性能改进达到了0.55分贝的尺度不变信号干扰比（SISDR），而表现最好的WD-TCN模型在WHAMR数据集上达到了12.26分贝的SISDR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

音频和语音处理

William Ravenscroft Stefan Goetze Thomas Hain

摘要

语音去混响是许多语音技术应用中的一个重要环节。近年来，该领域的研究主要集中在深度神经网络模型上。时间卷积网络（TCNs）是一种被提出用于序列建模的深度学习模型，特别适用于语音去混响任务。在本研究中，提出了一种加权多膨胀深度可分离卷积来替代TCN模型中的标准深度可分离卷积。这种提出的卷积方法使得TCN能够在网络的每个卷积块中动态地关注其感受野内的局部信息或更广泛的信息。实验结果表明，这种加权多膨胀时间卷积网络（WD-TCN）在各种模型配置下均优于传统的TCN，并且使用WD-TCN模型比增加卷积块的数量更能高效地提升模型性能。相对于基线TCN，最佳性能改进达到了0.55分贝的尺度不变信号干扰比（SISDR），而表现最好的WD-TCN模型在WHAMR数据集上达到了12.26分贝的SISDR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供