3 个月前

AudioLDM:基于潜在扩散模型的文本到音频生成

AudioLDM:基于潜在扩散模型的文本到音频生成

摘要

文本到音频(Text-to-Audio, TTA)系统近年来因其能够根据文本描述生成通用音频而受到广泛关注。然而,以往的TTA研究在生成质量方面受限,且计算成本较高。在本研究中,我们提出AudioLDM,一种基于潜在空间的TTA系统,该系统通过对比语言-音频预训练(Contrastive Language-Audio Pretraining, CLAP)的潜在表示来学习连续的音频表征。预训练的CLAP模型使我们能够在训练过程中引入音频嵌入,并在采样阶段以文本嵌入作为条件来指导生成。AudioLDM通过学习音频信号及其组合的潜在表示,无需显式建模跨模态关系,从而在生成质量与计算效率方面均展现出显著优势。在仅使用单张GPU训练AudioCaps数据集的情况下,AudioLDM在客观与主观评估指标(如Fréchet音频距离)上均达到了当前最优的TTA性能。此外,AudioLDM是首个能够以零样本(zero-shot)方式实现多种文本引导音频操作(如风格迁移)的TTA系统。我们的代码实现与演示视频已公开,详见:https://audioldm.github.io。

代码仓库

haoheliu/audioldm_eval
pytorch
GitHub 中提及
haoheliu/AudioLDM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-generation-on-audiocapsAudioLDM-L-Full
FAD: 1.96
FD: 23.31

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AudioLDM:基于潜在扩散模型的文本到音频生成 | 论文 | HyperAI超神经