3 个月前

基于对抗性流匹配优化的高保真波形生成加速方法

基于对抗性流匹配优化的高保真波形生成加速方法

摘要

本文提出了一种名为PeriodWave-Turbo的高保真、高效率波形生成模型,该模型通过对抗性流匹配优化实现。近年来,条件流匹配(Conditional Flow Matching, CFM)生成模型在波形生成任务中取得了成功应用,其训练过程仅需单一向量场估计目标。尽管此类模型能够生成高保真度的波形信号,但其所需的常微分方程(ODE)求解步数显著多于基于生成对抗网络(GAN)的模型——后者仅需单步生成即可完成。此外,由于向量场估计过程中存在噪声,生成样本往往缺乏高频信息,难以保证高频成分的准确还原。为克服这一局限性,本文通过引入固定步长生成器的改进机制,对预训练的CFM生成模型进行增强。利用重建损失与对抗性反馈机制,显著加速了高保真波形的生成过程。通过对抗性流匹配优化,仅需1,000步微调即可在多项客观评估指标上达到当前最优性能。同时,推理速度大幅降低,从原先的16步缩减至2步或4步。此外,通过将PeriodWave的主干网络参数量从2900万扩展至7000万,进一步提升了模型的泛化能力。在LibriTTS数据集上,PeriodWave-Turbo实现了前所未有的性能表现,语音质量的感知评估得分(PESQ)达到4.454。相关音频样本、源代码及模型检查点将公开于GitHub:https://github.com/sh-lee-prml/PeriodWave。

代码仓库

sh-lee-prml/periodwave
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-synthesis-on-librittsPeriodWave-Turbo-L
M-STFT: 0.7358
PESQ: 4.454
Periodicity: 0.0528
V/UV F1: 0.9756

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于对抗性流匹配优化的高保真波形生成加速方法 | 论文 | HyperAI超神经