4 个月前

QA-MDT:质量感知的掩码扩散变换器用于增强音乐生成

QA-MDT:质量感知的掩码扩散变换器用于增强音乐生成

摘要

文本到音乐(Text-to-Music, TTM)生成技术,即将文本描述转换为音频,为多媒体创作开辟了创新途径。要在这一过程中实现高质量和多样性,需要大量的高质量数据,而这些数据在现有的数据集中往往稀缺。大多数开源数据集通常存在低质量波形和文本-音频一致性差等问题,阻碍了音乐生成模型的发展。为了解决这些挑战,我们提出了一种新的质量感知训练范式,用于从大规模、质量不平衡的数据集中生成高质量、高音乐性的音乐。此外,通过利用音乐信号潜在空间的独特属性,我们对掩码扩散变换器(Masked Diffusion Transformer, MDT)模型进行了适应和实施,以应用于TTM任务,并展示了其在质量控制和增强音乐性方面的潜力。进一步地,我们引入了一种三阶段的字幕精炼方法来解决低质量字幕的问题。实验结果显示,在包括MusicCaps和Song-Describer Dataset在内的基准数据集上,该方法在客观和主观指标方面均达到了最先进的(State-of-the-Art, SOTA)性能。演示音频样本可在 https://qa-mdt.github.io/ 获取,代码和预训练检查点已开源发布于 https://github.com/ivcylc/OpenMusic。

代码仓库

ivcylc/qa-mdt
官方
pytorch
GitHub 中提及
ivcylc/openmusic
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
music-generation-on-song-describer-datasetOpenMusic
FAD VGG: 1.01
text-to-music-generation-on-musiccapsOpenMusic (QA-MDT)
FAD: 1.65
IS: 2.80
KL_passt: 1.31

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
QA-MDT:质量感知的掩码扩散变换器用于增强音乐生成 | 论文 | HyperAI超神经