3 个月前

基于迁移学习的深度卷积神经网络音频欺骗检测

基于迁移学习的深度卷积神经网络音频欺骗检测

摘要

近年来,自动说话人验证(Automatic Speaker Verification, ASV)系统日益受到关注,但欺骗攻击(spoofing attacks)已成为其面临的主要安全威胁,严重削弱了系统的可靠性。其中,重放攻击(Replay attacks)等欺骗手段实现简单,却极难被有效检测,因此亟需开发有效的防御机制。本文提出一种基于深度卷积神经网络的语音分类方法,用于检测各类欺骗攻击。所提方法采用梅尔频率尺度下的功率谱密度时频声学表示(Mel-spectrogram),并结合深度残差学习策略(基于ResNet-34架构的改进版本)。实验结果表明,在ASVspoof 2019数据集的逻辑访问场景下,该单模型系统在开发集上实现了0.9056%的等错误率(Equal Error Rate, EER),在测试集上达到5.32%;在物理访问场景下,开发集EER为5.87%,测试集EER为5.74%,展现出优异的欺骗检测性能。

代码仓库

基准测试

基准方法指标
transfer-learning-on-kitti-object-trackingPhysical Access
EER: 5.74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于迁移学习的深度卷积神经网络音频欺骗检测 | 论文 | HyperAI超神经