3 个月前

端到端神经说话人分离方法及其无排列目标函数

端到端神经说话人分离方法及其无排列目标函数

摘要

本文提出了一种新颖的端到端神经网络语音说话人分离方法。与大多数现有方法不同,所提出的方法不采用独立的说话人表征提取与聚类模块,而是通过单一神经网络直接输出说话人分离结果。为实现该模型,我们将说话人分离问题建模为多标签分类任务,并引入一种无排列依赖的目标函数,从而在不受到说话人标签排列问题影响的情况下,直接最小化分离错误。除了具备端到端的简洁性外,该方法还能够显式处理训练和推理过程中的重叠语音。得益于这一优势,仅需输入对应的多说话人语音片段标签,即可轻松地使用真实录制的多说话人对话数据对模型进行训练或适应。我们在模拟语音混合数据上对该方法进行了评估,结果表明,所提方法的说话人分离错误率(Diarization Error Rate, DER)达到12.28%,而传统的基于聚类的方法则达到28.77%。此外,在CALLHOME数据集上,通过使用真实录制语音进行领域自适应,取得了25.6%的相对性能提升。本文的源代码已公开,可通过 https://github.com/hitachi-speech/EEND 获取。

代码仓库

基准测试

基准方法指标
speaker-diarization-on-callhomeEEND
DER(%): 23.07

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
端到端神经说话人分离方法及其无排列目标函数 | 论文 | HyperAI超神经