3 个月前

基于wav2vec 2.0与数据增强的自动说话人验证欺骗检测与深度伪造检测

基于wav2vec 2.0与数据增强的自动说话人验证欺骗检测与深度伪造检测

摘要

伪造攻击防御系统的性能在根本上依赖于使用足够具有代表性的训练数据。然而,这类数据通常十分有限,导致现有解决方案在面对实际环境中出现的攻击时泛化能力不足。因此,亟需提出能够在不可控、不可预测攻击场景下提升系统可靠性的策略。本文报告了我们在利用自监督学习方法方面的探索,具体采用wav2vec 2.0作为前端模型并进行微调。尽管初始的特征表示仅基于真实语音数据进行学习,未使用任何伪造语音数据,我们仍取得了文献中报道的ASVspoof 2021逻辑访问(Logical Access)和Deepfake数据集上最低的等错误率(Equal Error Rate, EER)。当结合数据增强技术后,该方法相对于基线系统的性能提升达到了近90%的相对改进。

代码仓库

Ashigarg123/ShiftySpeech
pytorch
GitHub 中提及
liu-tianchi/nes2net
pytorch
GitHub 中提及
takhemlata/ssl_anti-spoofing
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-deepfake-detection-on-asvspoof-2021XLSR+AASIST
21DF EER: 3.69
21LA EER: 1.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于wav2vec 2.0与数据增强的自动说话人验证欺骗检测与深度伪造检测 | 论文 | HyperAI超神经