4 个月前

UniAudio:一种面向通用音频生成的音频基础模型

UniAudio:一种面向通用音频生成的音频基础模型

摘要

大型语言模型(LLM)已经展示了处理多种生成任务的能力。本文介绍了UniAudio系统,该系统不同于以往的任务特定方法,而是利用LLM技术根据给定的输入条件生成多种类型的音频(包括语音、声音、音乐和歌唱)。UniAudio系统的工作流程如下:1)首先对所有目标音频类型及其他条件模态进行分词;2)将源-目标对连接为一个单一序列;3)使用LLM进行下一个分词预测。此外,提出了一种多尺度Transformer模型来处理基于残差向量量化神经编解码器在分词过程中产生的过长序列问题。UniAudio的训练规模达到了16.5万小时的音频数据和10亿参数,涵盖了所有生成任务,旨在获得音频内在属性及其与其他模态之间关系的充分先验知识。因此,经过训练的UniAudio模型有潜力成为通用音频生成的基础模型:它在所有已训练的任务中表现出强大的能力,并且在简单微调后可以无缝支持新的音频生成任务。实验结果表明,UniAudio在11项任务中的大多数任务上达到了最先进的水平或至少具有竞争力的结果。演示和代码已发布在 https://github.com/yangdongchao/UniAudio。

代码仓库

yangdongchao/uniaudio
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-music-generation-on-musiccapsUniAudio
FAD: 3.65
KL_passt: 1.87

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniAudio:一种面向通用音频生成的音频基础模型 | 论文 | HyperAI超神经