3 个月前

BigVSAN:通过切片对抗网络增强基于GAN的神经声码器

BigVSAN:通过切片对抗网络增强基于GAN的神经声码器

摘要

基于生成对抗网络(GAN)的声码器(vocoder)因其能够以高于实时的速度合成高保真音频波形而受到广泛关注。然而,已有研究指出,大多数GAN在特征空间中难以获得区分真实数据与伪造数据的最优投影。在现有文献中,研究已证明一种改进的GAN训练框架——切片对抗网络(Slicing Adversarial Network, SAN),能够有效寻找最优投影,在图像生成任务中表现出显著性能。本文旨在探究SAN在声码器任务中的有效性。为此,我们提出一种改进方案,对当前大多数基于GAN的声码器所采用的最小二乘GAN(Least-Squares GAN)进行调整,使其损失函数满足SAN的要求。实验结果表明,仅通过少量修改,SAN即可显著提升基于GAN的声码器(包括BigVGAN)的性能。相关代码已开源,地址为:https://github.com/sony/bigvsan。

代码仓库

sony/bigvsan
官方
pytorch
GitHub 中提及
sony/bigvsan_eval
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-synthesis-on-librittsBigVSAN
M-STFT: 0.7881
MCD: 0.3381
PESQ: 4.116
Periodicity: 0.0935
V/UV F1: 0.9635
speech-synthesis-on-librittsBigVSAN (w/ snakebeta)
M-STFT: 0.7992
MCD: 0.4129
PESQ: 4.120
Periodicity: 0.0924
V/UV F1: 0.9644

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BigVSAN:通过切片对抗网络增强基于GAN的神经声码器 | 论文 | HyperAI超神经