6 个月前

摘要

最近，端到端神经说话人分离（End-to-End Neural Diarization, EEND）方法被提出，并在说话人重叠场景中取得了令人瞩目的成果。在EEND中，说话人分离被建模为一个多标签预测问题，其中各说话人的活动被独立估计，未能充分考虑说话人之间的依赖关系。为克服上述局限，本文采用幂集编码（power set encoding）将说话人分离重新建模为单标签分类问题，提出了一种面向重叠场景的端到端神经分离模型（EEND-OLA），从而能够显式地建模说话人重叠及其相互依赖关系。受两阶段混合系统成功经验的启发，我们进一步提出了一种新型的两阶段重叠感知说话人分离框架（Two-stage OverLap-aware Diarization, TOLD），该框架引入了一个面向说话人重叠的后处理模型（Speaker Overlap-aware Post-processing, SOAP），通过迭代方式对EEND-OLA的输出结果进行精细化优化。实验结果表明，与原始EEND相比，所提出的EEND-OLA在说话人分离错误率（Diarization Error Rate, DER）上实现了14.39%的相对提升；而引入SOAP后，进一步获得了19.33%的相对改进。最终，所提方法TOLD在CALLHOME数据集上取得了10.14%的DER，据我们所知，这是该基准测试上的最新最先进（state-of-the-art）结果。

源 PDF