4 个月前

语音提取的一种替代方法

语音提取的一种替代方法

摘要

基于音频线索的目标说话人提取(Target Speaker Extraction, TSE)研究主要集中在建模混合语音和参考语音上,由于大量数据集的可用性,该领域在英语中的性能已经达到了较高水平。然而,对于人类语音在不同语言中的一致性特征,研究的关注较少。为了弥补这一差距,我们提出了一种替代模型,该模型能够在无需微调的情况下解决从一种语言到另一种语言的TSE模型迁移问题。在这项工作中,我们设计了一种门控机制,能够根据说话人的声学特征调整特定频率。该模型在干净的英语语音上的SI-SDR得分为17.3544,在混有Wham!噪声的干净语音上的SI-SDR得分为13.2032,其适应不同语言的能力超过了所有其他模型。

基准测试

基准方法指标
speech-separation-on-libri2mixWHYV
SDR: 17.2458
SI-SDRi: 17.5
speech-separation-on-whamWHYV
SI-SDRi: 12.964

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语音提取的一种替代方法 | 论文 | HyperAI超神经