3 个月前

PeriodWave:用于高保真波形生成的多周期流匹配

PeriodWave:用于高保真波形生成的多周期流匹配

摘要

近年来,基于多种分布外(out-of-distribution)场景的通用波形生成任务受到广泛关注。尽管基于生成对抗网络(GAN)的方法在快速波形生成方面展现出显著优势,但其在训练-推理不匹配场景(如两阶段文本到语音合成)中表现脆弱。与此同时,基于扩散模型(diffusion-based)的方法在其他领域已展现出强大的生成能力,但由于在波形生成任务中推理速度较慢,尚未受到足够关注。此外,目前尚缺乏一种生成架构,能够显式地解耦高分辨率波形信号中的自然周期性特征。本文提出了一种新型通用波形生成模型——PeriodWave。首先,我们设计了一种周期感知的流匹配估计器(period-aware flow matching estimator),能够在向量场估计过程中有效捕捉波形信号的周期性特征。此外,我们引入了多周期估计器(multi-period estimator),通过避免周期间的重叠,以分别建模波形信号的不同周期性成分。尽管增加周期数量可显著提升模型性能,但会带来更高的计算开销。为缓解这一问题,我们进一步提出一种单周期条件下的通用估计器(single period-conditional universal estimator),支持按周期并行的批处理前向推理,显著提升生成效率。同时,我们采用离散小波变换(discrete wavelet transform),在无损前提下对波形信号的频域信息进行解耦,以增强对高频成分的建模能力;并引入FreeU机制,有效抑制波形生成过程中的高频噪声。实验结果表明,我们的模型在梅尔频谱图重建与文本到语音合成任务中均显著优于现有方法。所有源代码将公开于:https://github.com/sh-lee-prml/PeriodWave。

代码仓库

sh-lee-prml/periodwave
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-synthesis-on-librittsPeriodWave + FreeU
M-STFT: 1.0269
PESQ: 4.248
Periodicity: 0.0765
V/UV F1: 0.9651

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PeriodWave:用于高保真波形生成的多周期流匹配 | 论文 | HyperAI超神经