3 个月前

驯服数据与Transformer用于音频生成

驯服数据与Transformer用于音频生成

摘要

环境音生成技术的可扩展性受到数据稀缺、文本描述质量不足以及模型架构扩展性有限的制约。本文通过推进数据与模型的双重扩展,有效应对上述挑战。首先,我们提出了一种高效且可扩展的数据集构建流程,专为环境音频生成任务设计,构建了目前规模最大的环境音-文本数据集 AutoReCap-XL,包含超过4700万段音频片段。为提升文本标注质量,我们提出了 AutoCap——一种高质量的自动音频描述生成模型。该模型采用Q-Former模块并融合音频元数据,显著提升了生成描述的准确性,其CIDEr得分达到83.2,较此前的描述模型提升3.2%。最后,我们提出了一种可扩展的基于Transformer的音频生成架构 GenAu,并将其参数量扩展至12.5亿(1.25B)。实验表明,该模型在数据规模扩展(使用合成描述)和模型规模扩展方面均展现出显著优势。与在相似规模下训练的基线音频生成模型相比,GenAu在FAD得分上提升4.7%,IS(Inception Score)提升11.1%,CLAP得分提升13.5%。本文所涉及的代码、模型检查点及数据集均已公开发布。

代码仓库

snap-research/GenAU
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-captioning-on-audiocapsAutoCap
CIDEr: 0.832
METEOR: 0.253
ROUGE: 0.518
ROUGE-L: 0.518
SPICE: 0.182
SPIDEr: 0.507
audio-generation-on-audiocapsGenAu-Large
CLAP_MS: 0.668
FAD: 1.21
FD: 16.51

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
驯服数据与Transformer用于音频生成 | 论文 | HyperAI超神经