
摘要
我们提出了一种新的音频处理技术,利用深度卷积神经网络提升语音或音乐等信号的采样率。该模型在低质量与高质量音频样本对上进行训练;在测试阶段,它通过一种类似于图像超分辨率的插值过程,预测低分辨率信号中缺失的样本。该方法简单高效,无需依赖专门的音频处理技术。在我们的实验中,该方法在2倍、4倍和6倍的上采样比率下,均优于现有的基准方法,在标准语音和音乐基准测试中表现更优。该技术在电话通信、音频压缩以及文本转语音生成等领域具有实际应用价值,充分展示了前馈式卷积架构在音频生成任务中的有效性。
代码仓库
Amuzak-NTL/ASR-for-Speech-Recog
tf
GitHub 中提及
johnathanchiu/audio-upsampling
tf
GitHub 中提及
TrizteX/Audio-SuperRes
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-super-resolution-on-piano-1 | U-Net | Log-Spectral Distance: 3.4 |
| audio-super-resolution-on-vctk-multi-speaker-1 | U-Net | Log-Spectral Distance: 3.1 |
| audio-super-resolution-on-voice-bank-corpus-1 | U-Net | Log-Spectral Distance: 3.2 |