6 个月前

摘要

我们提出了一种新型语音分离模型，旨在处理说话人数量未知的语音混合信号。该模型由三个核心组件构成：1）双路径处理模块，用于建模频谱-时序模式；2）基于Transformer解码器的吸引子计算模块（Transformer Decoder-based Attractor, TDA），能够应对未知数量的说话人；3）三路径处理模块，用于建模说话人之间的相互关系。在给定一组固定且数量较少的可学习说话人查询（speaker queries）以及由双路径模块生成的混合信号嵌入（mixture embedding）的基础上，TDA模块推断各查询之间的关系，并为每个说话人生成对应的吸引子向量（attractor vector）。随后，这些估计得到的吸引子向量通过特征逐维线性调制（feature-wise linear modulation conditioning）与混合信号嵌入相结合，从而在特征空间中引入说话人维度。经过TDA生成的说话人信息条件化后的混合嵌入，被输入至最终的三路径处理模块。该模块在双路径结构的基础上增加了一条专门用于处理说话人间关系的路径，进一步增强了模型对多说话人交互关系的建模能力。所提出的模型在性能上超越了文献中此前报道的最佳方法，在WSJ0-2mix和3mix数据集上分别实现了24.0 dB和23.7 dB的SI-SDRi（信噪比改善度）提升，且仅使用一个统一训练的模型即可实现对2人与3人混合语音的有效分离。此外，该模型在估计声源数量以及分离最多达5个说话人的混合语音方面，均展现出优异的性能与良好的泛化能力。

源 PDF