4 个月前

AERO:频谱域音频超分辨率

AERO:频谱域音频超分辨率

摘要

我们介绍了AERO,一种在频谱域处理语音和音乐信号的音频超分辨率模型。AERO基于编码器-解码器架构,并采用了类似U-Net的跳跃连接。我们在时间域和频率域损失函数的共同作用下优化了该模型。具体而言,我们考虑了一组重建损失以及感知损失,后者包括对抗损失函数和特征判别损失函数。为了更好地处理相位信息,所提出的方法使用两个独立的通道对复数值谱图进行操作。与以往主要关注低频和高频拼接的音频超分辨率方法不同,本方法直接预测整个频率范围。我们在考虑语音和音乐的不同采样率范围内展示了高性能表现。AERO在Log-Spectral Distance(对数谱距离)、ViSQOL(视觉语音质量客观评估)和主观MUSHRA测试中均优于评估的基线模型。音频样本和代码可在以下网址获取:https://pages.cs.huji.ac.il/adiyoss-lab/aero

代码仓库

slp-rl/aero
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
bandwidth-extension-on-vctkAERO
LSD: 0.77

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AERO:频谱域音频超分辨率 | 论文 | HyperAI超神经