Apoorv VyasBowen ShiMatthew LeAndros TjandraYi-Chiao WuBaishan GuoJiemin ZhangXinyue ZhangRobert AdkinsWilliam NganJeff WangIvan CruzBapi AkulaAkinniyi AkinyemiBrian EllisRashel MoritzYael YungsterAlice RakotoarisonLiang TanChris SummersCarleigh WoodJoshua LaneMary WilliamsonWei-Ning Hsu

摘要
音频是人类生活中不可或缺的一部分,但其创作过程通常需要专业知识且耗时较长。在过去一年中,研究界在提升大规模单模态音频生成模型(如语音、声音或音乐)性能方面取得了显著进展,主要得益于更强大的生成模型架构以及更大规模数据的使用。然而,现有模型在可控性方面仍存在诸多局限:语音生成模型无法根据文本描述合成新颖的语音风格,且在领域覆盖上受限,难以有效处理如户外环境等复杂场景;声音生成模型仅能基于粗粒度描述(如“一个人在说话”)进行控制,生成结果往往仅为含糊不清的人声。本文提出 Audiobox,一个基于流匹配(flow-matching)框架的统一音频生成模型,能够生成多种音频模态。我们设计了基于描述和基于样例的提示机制(prompting),以增强生成过程的可控性,并统一语音与声音生成的范式。在语音生成过程中,模型可独立控制文本内容、发音人声线及其他音频风格。为在标签数据有限的情况下提升模型泛化能力,我们引入自监督填充(self-supervised infilling)目标,在大量未标注音频数据上进行预训练。Audiobox 在语音与声音生成任务上均创下新基准:在零样本语音合成(zero-shot TTS)任务中,LibriSpeech 数据集上的相似度达到 0.745;在文本到声音生成任务(AudioCaps)中,FAD 指标达到 0.77。该模型还首次实现了对新颖声线与声学风格的可控生成。此外,我们集成了 Bespoke Solvers,相较于默认的常微分方程(ODE)求解器,生成速度提升超过 25 倍,同时在多个任务上保持了相同的生成质量。相关演示系统已上线,欢迎访问:https://audiobox.metademolab.com/
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-generation-on-audiocaps | Audiobox Sound | CLAP_LAION: 0.71 FAD: 0.77 FD: 8.30 IS: 12.70 |