4 个月前

快速时序条件潜在音频扩散

快速时序条件潜在音频扩散

摘要

从文本提示生成长格式44.1kHz立体声音频在计算上具有挑战性。此外,大多数先前的研究并未解决音乐和音效在其持续时间上的自然变化问题。我们的研究重点在于利用生成模型高效地从文本提示生成长格式、可变长度的44.1kHz立体声音乐和音效。Stable Audio基于潜在扩散(latent diffusion)技术,其潜在变量由一个全卷积变分自编码器定义。该模型通过文本提示和时间嵌入进行条件控制,从而实现对生成音乐和音效的内容及长度的精细调控。Stable Audio能够在A100 GPU上于8秒内渲染出长达95秒的44.1kHz立体声音信号。尽管其计算效率高且推理速度快,它在两个公开的文本到音乐和音频基准测试中仍表现优异,并且与最先进的模型不同,它可以生成具有结构和立体声效果的音乐。

基准测试

基准方法指标
audio-generation-on-audiocapsStable Audio
CLAP_LAION: 0.41
FD_openl3: 103.66
KL_passt: 2.89
text-to-music-generation-on-musiccapsStable Audio
FD_openl3: 108.69
KL_passt: 0.80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
快速时序条件潜在音频扩散 | 论文 | HyperAI超神经