
摘要
任意到任意语音转换的目标是仅通过少量目标说话人的语音样本作为参考,即可将源语音转换为目标说话人的声音。尽管近期方法已能生成逼真的转换结果,但其复杂度显著增加,导致结果难以复现与进一步开发。为此,我们坚持简洁原则,提出一种简单而有效的任意到任意语音转换方法——k近邻语音转换(kNN-VC)。首先,我们提取源语音和参考语音的自监督表征。在转换为目标说话人时,将源语音表征中的每一帧替换为参考语音表征中最近邻的帧。最后,使用预训练的声码器从转换后的表征中合成语音。客观与主观评估结果表明,kNN-VC在保持与现有方法相当的语音可懂度水平的同时,显著提升了说话人相似度。代码、音频样本及训练好的模型详见:https://bshall.github.io/knn-vc
代码仓库
bshall/knn-vc
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| voice-conversion-on-librispeech-test-clean | kNN-VC (prematched HiFiGAN) | Character Error Rate (CER): 2.96 Equal Error Rate: 37.15 Word Error Rate (WER): 7.36 |