4 个月前

ETTA:阐明文本到音频模型的设计空间

ETTA:阐明文本到音频模型的设计空间

摘要

近年来,文本到音频(Text-To-Audio, TTA)合成技术取得了显著进展,使得用户可以通过自然语言提示生成合成音频,从而丰富其创意工作流程。尽管如此,数据、模型架构、训练目标函数和采样策略对目标基准的影响尚未得到充分理解。为了提供对TTA模型设计空间的全面理解,我们开展了一项大规模的实证实验,重点关注扩散模型和流匹配模型。我们的贡献包括:1)AF-Synthetic,一个高质量的合成字幕大型数据集,该数据集由一个音频理解模型获得;2)对不同架构、训练和推理设计选择的系统性比较;3)对采样方法及其在生成质量和推理速度方面的帕累托曲线进行分析。我们利用从这一广泛分析中获得的知识,提出了我们的最佳模型——阐明文本到音频(Elucidated Text-To-Audio, ETTA)。在AudioCaps和MusicCaps基准测试中,ETTA在使用公开可用数据训练的情况下优于基线模型,并且在性能上与使用专有数据训练的模型相当。最后,我们展示了ETTA在根据复杂且富有想象力的字幕生成创意音频方面的能力提升——这是一项比当前基准测试更具挑战性的任务。

基准测试

基准方法指标
audio-generation-on-audiocapsETTA
CLAP_LAION: 0.54
CLAP_MS: 0.43
FAD: 2.51
FD: 13.12
FD_openl3: 80.13
IS: 14.36
KL_passt: 1.22
audio-generation-on-audiocapsETTA-FT-AC-100k
CLAP_LAION: 0.60
CLAP_MS: 0.43
FAD: 2.03
FD: 10.10
FD_openl3: 61.79
IS: 14.29
KL_passt: 1.13
text-to-music-generation-on-musiccapsETTA
CLAP_LAION: 0.51
CLAP_MS: 0.53
FAD: 1.91
FD: 10.06
FD_openl3: 92.18
IS: 3.32
KL_passt: 0.84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ETTA:阐明文本到音频模型的设计空间 | 论文 | HyperAI超神经