JungJee-weon ; HeoHee-Soo ; TakHemlata ; ShimHye-jin ; ChungJoon Son ; LeeBong-Jin ; YuHa-Jin ; EvansNicholas

摘要
能够区分伪造语音与真实语音的特征可以存在于频谱域或时间域中。这些特征的可靠检测通常依赖于计算复杂度较高的集成系统,其中每个子系统都针对某些特定的特征进行调优。我们旨在开发一种高效、单一的系统,能够在没有分数级集成的情况下检测广泛的伪造攻击。为此,我们提出了一种新颖的异构堆叠图注意力层(Heterogeneous Stacking Graph Attention Layer),该层通过异构注意力机制和堆栈节点建模跨越不同时间域和频谱域的特征。借助一种新的最大图操作,该操作包含竞争机制和扩展读出方案,我们的方法——AASIST(Attention-based Audio Spoofing Identification using Stacking and Temporal Graphs)——在相对性能上比当前最先进的方法提高了20%。即使是一个参数量仅为85K的轻量级变体AASIST-L,其性能也超过了所有竞争对手系统。
代码仓库
Manasi2001/Spoofed-Speech-Attribution
pytorch
GitHub 中提及
clovaai/aasist
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-deepfake-detection-on-asvspoof-2021 | AASIST | 21DF EER: 21.07 21LA EER: 11.46 |
| voice-anti-spoofing-on-asvspoof-2019-la | AASIST | EER: 0.83% min t-dcf: 0.0275 |