3 个月前

端到端光谱-时序图注意力网络用于说话人验证反欺骗与语音深度伪造检测

端到端光谱-时序图注意力网络用于说话人验证反欺骗与语音深度伪造检测

摘要

能够区分真实语音与伪造语音(如深度伪造语音)的特征通常存在于特定的频带和时间片段中。尽管已有多种方法可用于捕捉和建模此类特征,但现有方法在应对多样化的伪造攻击时表现参差不齐,难以实现普适性。因此,可靠的检测通常依赖于多个检测系统的融合,每个系统针对不同类型的攻击进行优化。本文提出,若将融合机制嵌入模型内部,并通过原始波形输入自动学习特征表示,可显著提升检测性能。本文的核心贡献是一种时频图注意力网络(Spectro-Temporal Graph Attention Network, GAT),该网络能够自动学习跨不同频带与时间区间特征线索之间的关联关系。通过在模型层面实现频谱(S)子图与时间(T)子图的图融合,并引入图池化策略以增强判别能力,所提出的RawGAT-ST模型在ASVspoof 2019逻辑访问数据库上的等错误率(Equal Error Rate, EER)达到1.06%,为目前报道的最优结果之一,且可通过开源实现复现。

代码仓库

eurecom-asp/rawgat-st-antispoofing
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-deepfake-detection-on-asvspoof-2021RawGAT-ST
21DF EER: 23.26
21LA EER: 10.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
端到端光谱-时序图注意力网络用于说话人验证反欺骗与语音深度伪造检测 | 论文 | HyperAI超神经