4 个月前

AASIST: 基于集成频谱-时域图注意力网络的音频防欺骗技术

AASIST: 基于集成频谱-时域图注意力网络的音频防欺骗技术

摘要

能够区分伪造语音与真实语音的特征可以存在于频谱域或时间域中。这些特征的可靠检测通常依赖于计算复杂度较高的集成系统,其中每个子系统都针对某些特定的特征进行调优。我们旨在开发一种高效、单一的系统,能够在没有分数级集成的情况下检测广泛的伪造攻击。为此,我们提出了一种新颖的异构堆叠图注意力层(Heterogeneous Stacking Graph Attention Layer),该层通过异构注意力机制和堆栈节点建模跨越不同时间域和频谱域的特征。借助一种新的最大图操作,该操作包含竞争机制和扩展读出方案,我们的方法——AASIST(Attention-based Audio Spoofing Identification using Stacking and Temporal Graphs)——在相对性能上比当前最先进的方法提高了20%。即使是一个参数量仅为85K的轻量级变体AASIST-L,其性能也超过了所有竞争对手系统。

代码仓库

clovaai/aasist
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-deepfake-detection-on-asvspoof-2021AASIST
21DF EER: 21.07
21LA EER: 11.46
voice-anti-spoofing-on-asvspoof-2019-laAASIST
EER: 0.83%
min t-dcf: 0.0275

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AASIST: 基于集成频谱-时域图注意力网络的音频防欺骗技术 | 论文 | HyperAI超神经