4 个月前

利用合成字幕改进文本到音频模型

利用合成字幕改进文本到音频模型

摘要

获取高质量训练数据,尤其是音频描述(captions),对于文本到音频模型来说是一个公开的挑战。尽管先前的方法已经利用了\textit{纯文本语言模型}来增强和改进描述,但这些方法在规模和音频与描述之间的连贯性方面存在局限性。在这项工作中,我们提出了一种使用\textit{音频语言模型}大规模合成准确且多样的音频描述的管道。我们利用该管道为AudioSet生成了一个合成描述数据集,命名为\texttt{AF-AudioSet},并评估了在这些合成描述上预训练文本到音频模型的好处。通过在AudioCaps和MusicCaps上的系统性评估,我们发现利用我们的管道和合成描述可以显著提高音频生成质量,达到了新的\textit{最先进水平}(state-of-the-art)。

代码仓库

declare-lab/tango
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-generation-on-audiocapsTango-AF&AC-FT-AC
CLAP_LAION: 0.527
FAD: 2.54
FD: 17.19
IS: 11.04
text-to-music-generation-on-musiccapsTANGO-AF
CLAP_LAION: 0.51
CLAP_MS: 0.43
FAD: 2.21
FD: 22.69
FD_openl3: 270.32
IS: 2.79
KL_passt: 0.94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用合成字幕改进文本到音频模型 | 论文 | HyperAI超神经