4 个月前

SpEx+: 一种完整的时域说话人提取网络

SpEx+: 一种完整的时域说话人提取网络

摘要

说话人提取旨在从多说话人的环境中提取目标说话人的语音信号,给定目标说话人的参考语音。我们最近提出了一种时域解决方案,即SpEx,该方法避免了频域方法中的相位估计。然而,SpEx并不是完全的时域解决方案,因为它在进行说话人提取时采用时域语音编码,而参考的是频域说话人嵌入。此外,时域分析窗口的大小与频域输入窗口的大小也不同。这种不匹配对系统性能产生了不利影响。为了解决这一问题,我们提出了一种完整的时域说话人提取方案,称为SpEx+。具体而言,我们将两个相同的语音编码网络的权重绑定在一起,一个用于编码器-提取器-解码器管道,另一个作为说话人编码器的一部分。实验结果表明,在WSJ0-2mix-extr数据库的不同性别和相同性别条件下,SpEx+分别比最先进的SpEx基线提高了0.8 dB和2.1 dB的信噪比(SDR)。

基准测试

基准方法指标
speech-extraction-on-wsj0-2mix-extrSpEx+ (tied)
SI-SDR: 18.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SpEx+: 一种完整的时域说话人提取网络 | 论文 | HyperAI超神经