3 个月前

Bts-e:基于呼吸-说话-静默编码器的音频深度伪造检测

Bts-e:基于呼吸-说话-静默编码器的音频深度伪造检测

摘要

语音诈骗(vishing)因其语音合成技术的发展而日益盛行。特别是,利用深度学习生成任意内容、模拟受害者声音的音频片段,使得人类难以辨别,甚至对自动说话人验证(ASV)系统也构成严峻挑战。为应对这一威胁,近年来已开发出多种对抗性检测(Countermeasure, CM)系统,以增强ASV系统对合成语音的识别能力。本文提出一种名为BTS-E的框架,用于评估音频片段中呼吸声、说话声与静默声之间的相关性,并利用该信息开展深度伪造语音检测任务。我们认为,自然的人类声音特征(如呼吸声)难以通过文本转语音(TTS)系统精确合成。为此,我们在ASVspoof 2019与2021评测数据集上开展了大规模实验,验证了该假设。实验结果表明,呼吸声特征在深度伪造语音检测中具有显著的适用性。总体而言,所提出的系统可使分类器性能提升高达46%。

基准测试

基准方法指标
audio-deepfake-detection-on-asvspoof-2021BTS-E
21DF EER: /
21LA EER: 8.75

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Bts-e:基于呼吸-说话-静默编码器的音频深度伪造检测 | 论文 | HyperAI超神经