
摘要
我们介绍了一种块在线变体的时域特征线性调制(TFiLM)模型,以实现带宽扩展。所提出的架构简化了TFiLM中的UNet主干网络,以减少推理时间,并在瓶颈处采用高效的变压器来缓解性能下降。此外,我们还利用自监督预训练和数据增强技术来提高带宽扩展信号的质量并降低对下采样方法的敏感性。实验结果表明,在VCTK数据集上,该方法在侵入性和非侵入性指标方面均优于几种近期的基线方法。预训练和滤波器增强也有助于稳定和提升整体性能。
代码仓库
nxtproduct/tunet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-super-resolution-on-vctk-multi-speaker-1 | TUNet + MSM pre-training | Log-Spectral Distance: 1.28 |
| audio-super-resolution-on-vctk-multi-speaker-1 | TUNet | Log-Spectral Distance: 1.36 |