3 个月前

TOLD:一种新颖的两阶段重叠感知说话人分离框架

TOLD:一种新颖的两阶段重叠感知说话人分离框架

摘要

最近,端到端神经说话人分离(End-to-End Neural Diarization, EEND)方法被提出,并在说话人重叠场景中取得了令人瞩目的成果。在EEND中,说话人分离被建模为一个多标签预测问题,其中各说话人的活动被独立估计,未能充分考虑说话人之间的依赖关系。为克服上述局限,本文采用幂集编码(power set encoding)将说话人分离重新建模为单标签分类问题,提出了一种面向重叠场景的端到端神经分离模型(EEND-OLA),从而能够显式地建模说话人重叠及其相互依赖关系。受两阶段混合系统成功经验的启发,我们进一步提出了一种新型的两阶段重叠感知说话人分离框架(Two-stage OverLap-aware Diarization, TOLD),该框架引入了一个面向说话人重叠的后处理模型(Speaker Overlap-aware Post-processing, SOAP),通过迭代方式对EEND-OLA的输出结果进行精细化优化。实验结果表明,与原始EEND相比,所提出的EEND-OLA在说话人分离错误率(Diarization Error Rate, DER)上实现了14.39%的相对提升;而引入SOAP后,进一步获得了19.33%的相对改进。最终,所提方法TOLD在CALLHOME数据集上取得了10.14%的DER,据我们所知,这是该基准测试上的最新最先进(state-of-the-art)结果。

代码仓库

基准测试

基准方法指标
speaker-diarization-on-callhomeTOLD
CF: 2.94
DER(%): 10.14
DER(ig olp): 7.37
FA: 2.4
MI: 4.8
speaker-diarization-on-callhomeEEND-OLA
DER(%): 12.57
DER(ig olp): 9.14

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TOLD:一种新颖的两阶段重叠感知说话人分离框架 | 论文 | HyperAI超神经