4 个月前

MeLFusion:使用扩散模型从图像和语言线索合成音乐

MeLFusion:使用扩散模型从图像和语言线索合成音乐

摘要

音乐是一种普遍的语言,能够传达情感和感受。它构成了从电影到社交媒体帖子整个创意媒体领域的不可或缺部分。目前,大多数能够合成音乐的机器学习模型主要依赖于文本描述进行条件设定。受到音乐家不仅根据电影剧本创作音乐,还通过视觉化手段进行创作的启发,我们提出了MeLFusion模型,该模型可以有效地利用文本描述和相应图像中的线索来合成音乐。MeLFusion是一种文本到音乐的扩散模型,具有新颖的“视觉突触”(visual synapse),能够将视觉模态中的语义有效融入生成的音乐中。为了促进这一领域的研究,我们引入了一个新的数据集MeLBench,并提出了一种新的评估指标IMSM。我们的详尽实验评估表明,将视觉信息添加到音乐合成流程中显著提高了生成音乐的质量,无论是在客观还是主观评价方面,FAD分数相对提升了高达67.98%。我们希望这项工作能够引起对这一实用但相对未被充分探索的研究领域的关注。

代码仓库

基准测试

基准方法指标
text-to-music-generation-on-musiccapsMeLFusion (image-conditioned)
FAD: 1.12
FD: 22.65
KL_passt: 0.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MeLFusion:使用扩散模型从图像和语言线索合成音乐 | 论文 | HyperAI超神经