
摘要
伪造攻击防御系统的性能在根本上依赖于使用足够具有代表性的训练数据。然而,这类数据通常十分有限,导致现有解决方案在面对实际环境中出现的攻击时泛化能力不足。因此,亟需提出能够在不可控、不可预测攻击场景下提升系统可靠性的策略。本文报告了我们在利用自监督学习方法方面的探索,具体采用wav2vec 2.0作为前端模型并进行微调。尽管初始的特征表示仅基于真实语音数据进行学习,未使用任何伪造语音数据,我们仍取得了文献中报道的ASVspoof 2021逻辑访问(Logical Access)和Deepfake数据集上最低的等错误率(Equal Error Rate, EER)。当结合数据增强技术后,该方法相对于基线系统的性能提升达到了近90%的相对改进。
代码仓库
Ashigarg123/ShiftySpeech
pytorch
GitHub 中提及
liu-tianchi/nes2net
pytorch
GitHub 中提及
takhemlata/ssl_anti-spoofing
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-deepfake-detection-on-asvspoof-2021 | XLSR+AASIST | 21DF EER: 3.69 21LA EER: 1.0 |