LiChang ; WangRuoyu ; LiuLijuan ; DuJun ; SunYixuan ; GuoZilu ; ZhangZhenrong ; JiangYuan ; GaoJianqing ; MaFeng

摘要
文本到音乐(Text-to-Music, TTM)生成技术,即将文本描述转换为音频,为多媒体创作开辟了创新途径。要在这一过程中实现高质量和多样性,需要大量的高质量数据,而这些数据在现有的数据集中往往稀缺。大多数开源数据集通常存在低质量波形和文本-音频一致性差等问题,阻碍了音乐生成模型的发展。为了解决这些挑战,我们提出了一种新的质量感知训练范式,用于从大规模、质量不平衡的数据集中生成高质量、高音乐性的音乐。此外,通过利用音乐信号潜在空间的独特属性,我们对掩码扩散变换器(Masked Diffusion Transformer, MDT)模型进行了适应和实施,以应用于TTM任务,并展示了其在质量控制和增强音乐性方面的潜力。进一步地,我们引入了一种三阶段的字幕精炼方法来解决低质量字幕的问题。实验结果显示,在包括MusicCaps和Song-Describer Dataset在内的基准数据集上,该方法在客观和主观指标方面均达到了最先进的(State-of-the-Art, SOTA)性能。演示音频样本可在 https://qa-mdt.github.io/ 获取,代码和预训练检查点已开源发布于 https://github.com/ivcylc/OpenMusic。
代码仓库
ivcylc/qa-mdt
官方
pytorch
GitHub 中提及
ivcylc/openmusic
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| music-generation-on-song-describer-dataset | OpenMusic | FAD VGG: 1.01 |
| text-to-music-generation-on-musiccaps | OpenMusic (QA-MDT) | FAD: 1.65 IS: 2.80 KL_passt: 1.31 |