4 个月前

aTENNuate:基于深度状态空间模型的优化实时语音增强技术

aTENNuate:基于深度状态空间模型的优化实时语音增强技术

摘要

我们介绍了一种名为aTENNuate的简单深度状态空间自动编码器,该编码器配置为以端到端的方式高效进行在线原始语音增强。网络的主要性能评估集中在原始语音去噪上,同时还在超分辨率和解量化等任务上进行了额外评估。我们在VoiceBank + DEMAND和Microsoft DNS1合成测试集上对aTENNuate进行了基准测试。结果表明,该网络在PESQ分数、参数数量、MACs(乘积累加运算)和延迟方面均优于以往的实时去噪模型。即使作为原始波形处理模型,aTENNate也能保持对干净信号的高度保真度,并且几乎不会产生可听的伪影。此外,当输入的噪声信号被压缩至4000Hz和4位时,该模型仍然表现出色,这表明其在低资源环境下的通用语音增强能力。您可以通过pip install attenuate来尝试使用该模型。

基准测试

基准方法指标
speech-enhancement-on-deep-noise-suppressionaTENNuate
PESQ-WB: 2.98
speech-enhancement-on-demandaTENNuate
CBAK: 2.85
COVL: 3.96
CSIG: 4.57
PESQ (wb): 3.27
SI-SDR: 15.04

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
aTENNuate:基于深度状态空间模型的优化实时语音增强技术 | 论文 | HyperAI超神经