3 个月前

AudioLM:一种基于语言建模的音频生成方法

AudioLM:一种基于语言建模的音频生成方法

摘要

我们提出 AudioLM,一种用于生成高质量、具有长期一致性的音频的框架。AudioLM 将输入音频映射为离散标记序列,并将音频生成任务转化为该表示空间中的语言建模问题。我们展示了现有音频分词器在重建质量与长期结构之间存在的不同权衡,并提出一种混合分词方案,以同时实现这两个目标。具体而言,我们利用在音频数据上预训练的掩码语言模型所产生的离散激活值来捕捉长期结构,同时结合神经音频编解码器生成的离散码以实现高质量的音频合成。通过在大规模原始音频波形数据上进行训练,AudioLM 能够根据简短的提示生成自然且连贯的音频延续。当在语音数据上训练时,即使未使用任何转录文本或标注信息,AudioLM 仍能生成语法和语义上合理的语音延续,同时保持未见说话人的语音身份特征与语调特性。此外,我们还证明,该方法的应用不仅限于语音,即使未引入任何音乐的符号化表示,也能成功生成连贯的钢琴音乐延续。

代码仓库

serp-ai/bark-with-voice-clone
pytorch
GitHub 中提及
RoganInglis/AudioLM
pytorch
GitHub 中提及
suno-ai/bark
pytorch
GitHub 中提及
plachtaa/vall-e-x
pytorch
GitHub 中提及
fixie-ai/ultravox
GitHub 中提及

基准测试

基准方法指标
speech-to-speech-translation-on-fleurs-x-engAudioPaLM2
ASR-BLEU: 24.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AudioLM:一种基于语言建模的音频生成方法 | 论文 | HyperAI超神经