3 个月前

SG-VAD:基于随机门控的话音活动检测

SG-VAD:基于随机门控的话音活动检测

摘要

我们提出了一种面向低资源环境的新型语音活动检测(Voice Activity Detection, VAD)模型。其核心思想是将VAD建模为一个去噪任务,并设计一种网络结构,用于识别对语音分类任务具有干扰性的特征。该模型在预测语音事件类型的同时,能够有效识别并抑制无关特征。模型参数量仅为7.8K,在AVA-Speech评估集上优于此前提出的各类方法,并在HAVIC数据集上取得了具有竞争力的实验结果。本文详细介绍了模型架构、实验结果以及对模型各组件的消融研究。相关代码与模型已公开发布于:https://www.github.com/jsvir/vad。

代码仓库

jsvir/vad
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
activity-detection-on-ava-speechSG-VAD (ours)
ROC-AUC: 94.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SG-VAD:基于随机门控的话音活动检测 | 论文 | HyperAI超神经