HyperAI

摘要

基于音频线索的目标说话人提取（Target Speaker Extraction, TSE）研究主要集中在建模混合语音和参考语音上，由于大量数据集的可用性，该领域在英语中的性能已经达到了较高水平。然而，对于人类语音在不同语言中的一致性特征，研究的关注较少。为了弥补这一差距，我们提出了一种替代模型，该模型能够在无需微调的情况下解决从一种语言到另一种语言的TSE模型迁移问题。在这项工作中，我们设计了一种门控机制，能够根据说话人的声学特征调整特定频率。该模型在干净的英语语音上的SI-SDR得分为17.3544，在混有Wham!噪声的干净语音上的SI-SDR得分为13.2032，其适应不同语言的能力超过了所有其他模型。

摘要

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

摘要

用 AI 构建 AI

HyperAI Newsletters

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

摘要

用 AI 构建 AI

HyperAI Newsletters

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

语音提取的一种替代方法

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

语音提取的一种替代方法

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

语音提取的一种替代方法

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

摘要

用 AI 构建 AI

HyperAI Newsletters