3 个月前

TS-SEP:基于估计说话人嵌入的联合说话人分离与分割

TS-SEP:基于估计说话人嵌入的联合说话人分离与分割

摘要

由于会议数据中的说话人分离与语音分离任务密切相关,本文提出一种联合实现这两项目标的方案。该方法基于目标说话人语音活动检测(TS-VAD)的说话人日志技术,假设初始的说话人嵌入(speaker embeddings)已知。我们用一个能够在时频域输出说话人活动估计的新网络,替代了TS-VAD中原本的最终联合说话人活动估计网络。该时频域的活动估计结果可作为掩蔽(masking)或波束成形(beamforming)技术中的掩码,用于语音源分离。该方法既适用于单通道输入,也适用于多通道输入,在两种情况下均在LibriCSS会议数据的语音识别任务上取得了新的最先进词错误率(WER)性能。此外,为进一步分析日志错误对整体WER性能的影响,我们分别计算了基于说话人感知(speaker-aware)与说话人无关(speaker-agnostic)的WER指标。

代码仓库

merlresearch/tssep
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-libricssTS-SEP
Word Error Rate (WER): 3.27

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TS-SEP:基于估计说话人嵌入的联合说话人分离与分割 | 论文 | HyperAI超神经