
摘要
语音助手,如智能音箱,近年来广受欢迎。据目前估计,智能音箱在美国成年人中的普及率已超过35%。制造商集成了说话人识别技术,该技术旨在确定说话人的身份,以便为同一家庭的不同成员提供个性化服务。说话人识别在控制智能音箱的使用方面也发挥着重要作用。例如,在播放音乐时,正确识别用户并不是关键;但在大声读取用户的电子邮件时,则必须准确验证发出请求的说话人是否为授权用户。因此,作为防止各种旨在冒充注册用户的欺骗攻击的守门员,说话人验证系统(用于验证说话人身份)是必不可少的。本文比较了流行的可学习前端架构,这些架构通过与下游任务联合训练来学习音频表示(端到端)。我们通过定义两种通用架构对前端进行分类,并分析了这两种类型在学习约束方面的滤波阶段。我们建议用一个可学习层替代固定的滤波器组,以更好地适应反欺骗任务。所提出的FastAudio前端随后与两个流行的后端结合测试,以评估其在ASVspoof 2019数据集LA赛道上的性能。FastAudio前端相比固定前端实现了27%的相对改进,在此任务上优于所有其他可学习前端。
代码仓库
magnumresearchgroup/Fastaudio
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| voice-anti-spoofing-on-asvspoof2019 | FastAudio | EER: 1.54 |