YangDongchao ; TianJinchuan ; TanXu ; HuangRongjie ; LiuSongxiang ; ChangXuankai ; ShiJiatong ; ZhaoSheng ; BianJiang ; ZhaoZhou ; WuXixin ; MengHelen

摘要
大型语言模型(LLM)已经展示了处理多种生成任务的能力。本文介绍了UniAudio系统,该系统不同于以往的任务特定方法,而是利用LLM技术根据给定的输入条件生成多种类型的音频(包括语音、声音、音乐和歌唱)。UniAudio系统的工作流程如下:1)首先对所有目标音频类型及其他条件模态进行分词;2)将源-目标对连接为一个单一序列;3)使用LLM进行下一个分词预测。此外,提出了一种多尺度Transformer模型来处理基于残差向量量化神经编解码器在分词过程中产生的过长序列问题。UniAudio的训练规模达到了16.5万小时的音频数据和10亿参数,涵盖了所有生成任务,旨在获得音频内在属性及其与其他模态之间关系的充分先验知识。因此,经过训练的UniAudio模型有潜力成为通用音频生成的基础模型:它在所有已训练的任务中表现出强大的能力,并且在简单微调后可以无缝支持新的音频生成任务。实验结果表明,UniAudio在11项任务中的大多数任务上达到了最先进的水平或至少具有竞争力的结果。演示和代码已发布在 https://github.com/yangdongchao/UniAudio。
代码仓库
yangdongchao/uniaudio
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-music-generation-on-musiccaps | UniAudio | FAD: 3.65 KL_passt: 1.87 |