8 个月前

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

摘要

近年来，文本到音频（Text-To-Audio, TTA）合成技术取得了显著进展，使得用户可以通过自然语言提示生成合成音频，从而丰富其创意工作流程。尽管如此，数据、模型架构、训练目标函数和采样策略对目标基准的影响尚未得到充分理解。为了提供对TTA模型设计空间的全面理解，我们开展了一项大规模的实证实验，重点关注扩散模型和流匹配模型。我们的贡献包括：1）AF-Synthetic，一个高质量的合成字幕大型数据集，该数据集由一个音频理解模型获得；2）对不同架构、训练和推理设计选择的系统性比较；3）对采样方法及其在生成质量和推理速度方面的帕累托曲线进行分析。我们利用从这一广泛分析中获得的知识，提出了我们的最佳模型——阐明文本到音频（Elucidated Text-To-Audio, ETTA）。在AudioCaps和MusicCaps基准测试中，ETTA在使用公开可用数据训练的情况下优于基线模型，并且在性能上与使用专有数据训练的模型相当。最后，我们展示了ETTA在根据复杂且富有想象力的字幕生成创意音频方面的能力提升——这是一项比当前基准测试更具挑战性的任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

摘要

近年来，文本到音频（Text-To-Audio, TTA）合成技术取得了显著进展，使得用户可以通过自然语言提示生成合成音频，从而丰富其创意工作流程。尽管如此，数据、模型架构、训练目标函数和采样策略对目标基准的影响尚未得到充分理解。为了提供对TTA模型设计空间的全面理解，我们开展了一项大规模的实证实验，重点关注扩散模型和流匹配模型。我们的贡献包括：1）AF-Synthetic，一个高质量的合成字幕大型数据集，该数据集由一个音频理解模型获得；2）对不同架构、训练和推理设计选择的系统性比较；3）对采样方法及其在生成质量和推理速度方面的帕累托曲线进行分析。我们利用从这一广泛分析中获得的知识，提出了我们的最佳模型——阐明文本到音频（Elucidated Text-To-Audio, ETTA）。在AudioCaps和MusicCaps基准测试中，ETTA在使用公开可用数据训练的情况下优于基线模型，并且在性能上与使用专有数据训练的模型相当。最后，我们展示了ETTA在根据复杂且富有想象力的字幕生成创意音频方面的能力提升——这是一项比当前基准测试更具挑战性的任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供