HyperAIHyperAI

Command Palette

Search for a command to run...

一种混合CNN-BiLSTM语音活动检测器

Nicholas Wilkinson Thomas Niesler

摘要

本文提出了一种新型的混合语音活动检测(Voice Activity Detection, VAD)架构,该架构结合了卷积神经网络(Convolutional Neural Network, CNN)与双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)层,并采用端到端方式联合训练。此外,本文特别关注模型计算效率的优化,旨在在资源极度受限的条件下,仍能实现对复杂真实场景噪声环境下的稳健性能。通过嵌套k折交叉验证方法对超参数空间进行探索,并讨论了最优参数配置与模型规模之间的权衡关系。同时,本文还对比分析了BiLSTM层与单向LSTM层在性能上的差异。在AVA-Speech数据集上,我们将所提系统与三个成熟的基准模型进行了对比。结果表明,采用接近最优参数的显著更小模型,其性能可与经过最优参数训练的大规模模型相媲美。实验显示,BiLSTM层相较于单向LSTM层平均提升了约2%的绝对准确率。在面积曲线下(AUC)达到0.951的情况下,本系统在所有对比基线上均表现更优,尤其在复杂噪声条件下,其性能显著超越了一个规模大得多的ResNet基线模型。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种混合CNN-BiLSTM语音活动检测器 | 论文 | HyperAI超神经