3 个月前

BigVGAN:基于大规模训练的通用神经声码器

BigVGAN:基于大规模训练的通用神经声码器

摘要

尽管基于生成对抗网络(GAN)的声码器在条件于声学特征生成原始波形方面取得了近期进展,但在不同录音环境下对大量说话人合成高保真音频仍面临挑战。本文提出BigVGAN,一种具有强泛化能力的通用声码器,无需微调即可有效应对多种分布外(out-of-distribution)场景。我们引入周期性激活函数与抗混叠表示(anti-aliased representation)至GAN生成器中,为语音合成任务引入了理想的归纳偏置,显著提升了音频质量。此外,我们训练了目前文献中规模最大的GAN声码器,参数量高达1.12亿,创下新纪录。在训练过程中,我们识别并解决了大规模GAN训练中出现的失效模式,在保持高保真输出的同时避免了过度正则化。所提出的BigVGAN仅在纯净语音数据(LibriTTS)上进行训练,即可在多种零样本(zero-shot)分布外场景下实现当前最优性能,涵盖未见说话人、语言、录音环境、演唱声线、音乐及器乐音频等。相关代码与模型已开源,地址为:https://github.com/NVIDIA/BigVGAN

代码仓库

nvidia/bigvgan
官方
pytorch
GitHub 中提及
sh-lee-prml/BigVGAN
pytorch
GitHub 中提及
sh-lee-prml/periodwave
pytorch
GitHub 中提及
sh-lee-prml/hierspeechpp
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-synthesis-on-librittsBigVGAN-v2
M-STFT: 0.7026
MCD: 0.2903
PESQ: 4.362
Periodicity: 0.0593
V/UV F1: 0.9793
speech-synthesis-on-librittsBigVGAN
M-STFT: 0.7997
MCD: 0.3745
PESQ: 4.027
Periodicity: 0.1018
V/UV F1: 0.9598
speech-synthesis-on-librittsBigVGAN-base
M-STFT: 0.8788
MCD: 0.4564
PESQ: 3.519
Periodicity: 0.1287
V/UV F1: 0.9459

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BigVGAN:基于大规模训练的通用神经声码器 | 论文 | HyperAI超神经