8 个月前

音频和语音处理

卷积神经网络

William Ravenscroft Stefan Goetze Thomas Hain

摘要

语音去混响在鲁棒语音处理任务中通常是重要的需求。监督深度学习（DL）模型在单通道语音去混响任务中表现出最先进的性能。时间卷积网络（TCNs）在语音增强任务中常用于序列建模。TCNs的一个特点是其感受野（RF）取决于特定的模型配置，这决定了生成单个输出帧时可以观察到的输入帧数量。已有研究表明，TCNs能够对模拟语音数据进行去混响处理，但在文献中尚缺乏对其感受野的深入分析。本文分析了TCNs的去混响性能与其模型大小和感受野的关系。实验使用了扩展后的WHAMR语料库，该语料库包含了具有更大T60值的房间脉冲响应（RIRs），结果表明，在训练较小的TCN模型时，更大的感受野可以显著提高性能。此外，研究还证明了当处理具有较大RT60值的RIRs时，TCNs从更宽的感受野中受益。注释：- T60值：表示声学环境中声音衰减60分贝所需的时间，是衡量房间混响程度的重要参数。- RT60值：与T60值相同，通常用于描述房间脉冲响应中的混响时间。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

卷积神经网络

William Ravenscroft Stefan Goetze Thomas Hain

摘要

语音去混响在鲁棒语音处理任务中通常是重要的需求。监督深度学习（DL）模型在单通道语音去混响任务中表现出最先进的性能。时间卷积网络（TCNs）在语音增强任务中常用于序列建模。TCNs的一个特点是其感受野（RF）取决于特定的模型配置，这决定了生成单个输出帧时可以观察到的输入帧数量。已有研究表明，TCNs能够对模拟语音数据进行去混响处理，但在文献中尚缺乏对其感受野的深入分析。本文分析了TCNs的去混响性能与其模型大小和感受野的关系。实验使用了扩展后的WHAMR语料库，该语料库包含了具有更大T60值的房间脉冲响应（RIRs），结果表明，在训练较小的TCN模型时，更大的感受野可以显著提高性能。此外，研究还证明了当处理具有较大RT60值的RIRs时，TCNs从更宽的感受野中受益。注释：- T60值：表示声学环境中声音衰减60分贝所需的时间，是衡量房间混响程度的重要参数。- RT60值：与T60值相同，通常用于描述房间脉冲响应中的混响时间。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供