3 个月前

基于离散自监督单元的波形域语音风格转换

基于离散自监督单元的波形域语音风格转换

摘要

我们提出了一种名为DISSC的新方法,这是一种轻量级的文本无关语音转换技术,可将录音中的节奏、音高轮廓和音色特征转换为目标说话人的特征。与大多数语音转换(VC)方法主要关注音色而忽略个体独特语调风格(韵律)不同,DISSC能够同时建模并转换韵律、音高和音色特征。该方法采用预训练的自监督语音编码模型,将语音映射为离散单元,从而实现简单、高效且快速的训练过程。所有转换模块仅通过重建类任务进行训练,因此适用于无需配对数据的任意到多对语音转换场景。我们还引入了一套定量与定性相结合的评估指标,用于该设置下的性能评估,并通过实验证明,DISSC在各项指标上显著优于所对比的基线方法。代码与示例音频已公开,可访问 https://pages.cs.huji.ac.il/adiyoss-lab/dissc/。

代码仓库

gallilmaimon/DISSC
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
voice-conversion-on-vctkDISSC
Phone Length Error (PLE): 0.023
Total Length Error (TLE): 0.832
Word Length Error (WLE): 0.056

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供