KongZhifeng ; LeeSang-gil ; GhosalDeepanway ; MajumderNavonil ; MehrishAmbuj ; ValleRafael ; PoriaSoujanya ; CatanzaroBryan

摘要
获取高质量训练数据,尤其是音频描述(captions),对于文本到音频模型来说是一个公开的挑战。尽管先前的方法已经利用了\textit{纯文本语言模型}来增强和改进描述,但这些方法在规模和音频与描述之间的连贯性方面存在局限性。在这项工作中,我们提出了一种使用\textit{音频语言模型}大规模合成准确且多样的音频描述的管道。我们利用该管道为AudioSet生成了一个合成描述数据集,命名为\texttt{AF-AudioSet},并评估了在这些合成描述上预训练文本到音频模型的好处。通过在AudioCaps和MusicCaps上的系统性评估,我们发现利用我们的管道和合成描述可以显著提高音频生成质量,达到了新的\textit{最先进水平}(state-of-the-art)。
代码仓库
declare-lab/tango
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-generation-on-audiocaps | Tango-AF&AC-FT-AC | CLAP_LAION: 0.527 FAD: 2.54 FD: 17.19 IS: 11.04 |
| text-to-music-generation-on-musiccaps | TANGO-AF | CLAP_LAION: 0.51 CLAP_MS: 0.43 FAD: 2.21 FD: 22.69 FD_openl3: 270.32 IS: 2.79 KL_passt: 0.94 |