3 个月前

EfficientNet-绝对零点用于连续语音关键词检测

EfficientNet-绝对零点用于连续语音关键词检测

摘要

关键词检测(Keyword Spotting)是指计算机从录音语料中识别出特定词汇或短语的过程。深度神经网络算法作为强大的处理引擎,若在合适的训练数据集上进行训练,便能够有效解决此类问题。为此,本文通过众包方式构建了一个全新的波斯语关键词检测数据集——足球关键词数据集(Football Keyword Dataset, FKD)。该数据集共包含近31,000个样本,涵盖18个类别。为使FKD适用于实际连续语音场景,本文提出了一种连续语音合成方法,以增强数据集在真实应用中的可用性。此外,本文基于EfficientNet-B0模型,采用复合缩放(compound scaling)方法,提出了一种轻量级网络架构,命名为EfficientNet-A0(绝对零点),专用于关键词检测任务。最终,所提出的架构在多种模型上进行了评估。实验结果表明,在该数据集上,EfficientNet-A0与ResNet模型的性能优于其他对比模型。

基准测试

基准方法指标
keyword-spotting-on-fkdRes26
Accuracy: 95.88
keyword-spotting-on-fkdEfficientNet-A0 + SA + TL
Accuracy: 95.83

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EfficientNet-绝对零点用于连续语音关键词检测 | 论文 | HyperAI超神经