4 个月前

演奏音乐的FLUX

演奏音乐的FLUX

摘要

本文探讨了一种基于扩散模型的修正流(rectified flow)Transformer在文本到音乐生成中的简单扩展,命名为FluxMusic。通常,结合先进的Flux模型设计,我们将该模型转换到梅尔频谱的潜在VAE空间中。这一过程首先对双通道的文本-音乐流应用一系列独立注意力机制,随后通过堆叠单个音乐流来进行去噪补丁预测。我们采用了多个预训练的文本编码器,以充分捕捉字幕的语义信息并提高推理灵活性。在此过程中,粗粒度的文本信息与时间步嵌入共同用于调制机制,而细粒度的文本细节则与音乐补丁序列拼接作为输入。通过深入研究,我们证明了采用优化架构进行修正流训练在文本到音乐任务上显著优于已有的扩散方法,这一点由多种自动评估指标和人类偏好评价所证实。我们的实验数据、代码和模型权重已在以下网址公开提供:https://github.com/feizc/FluxMusic。

代码仓库

feizc/fluxmusic
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-music-generation-on-musiccapsFLUXMusic
FAD: 1.43
IS: 2.98
KL_passt: 1.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
演奏音乐的FLUX | 论文 | HyperAI超神经