8 个月前

统一多模态

Haohe Liu Yi Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley

摘要

尽管音频生成在不同类型的音频（如语音、音乐和音效）之间存在共性，但为每种类型设计模型时需要仔细考虑特定的目标和偏差，这些目标和偏差可能与其他类型显著不同。为了使我们更接近统一的音频生成视角，本文提出了一种框架，该框架利用相同的学习方法进行语音、音乐和音效的生成。我们的框架引入了一种通用的音频表示方法，称为“音频语言”(Language of Audio, LOA)。任何音频都可以基于AudioMAE（一种自监督预训练表示学习模型）转换为LOA。在生成过程中，我们通过使用GPT-2模型将任何模态转换为LOA，并使用以LOA为条件的潜在扩散模型进行自监督音频生成学习。所提出的框架自然带来了诸如上下文学习能力和可重用的自监督预训练AudioMAE及潜在扩散模型等优势。在文本到音频、文本到音乐和文本到语音的主要基准测试中的实验表明，该框架在性能上达到了当前最佳或具有竞争力的结果。我们的代码、预训练模型和演示可在https://audioldm.github.io/audioldm2 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

Haohe Liu Yi Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley

摘要

尽管音频生成在不同类型的音频（如语音、音乐和音效）之间存在共性，但为每种类型设计模型时需要仔细考虑特定的目标和偏差，这些目标和偏差可能与其他类型显著不同。为了使我们更接近统一的音频生成视角，本文提出了一种框架，该框架利用相同的学习方法进行语音、音乐和音效的生成。我们的框架引入了一种通用的音频表示方法，称为“音频语言”(Language of Audio, LOA)。任何音频都可以基于AudioMAE（一种自监督预训练表示学习模型）转换为LOA。在生成过程中，我们通过使用GPT-2模型将任何模态转换为LOA，并使用以LOA为条件的潜在扩散模型进行自监督音频生成学习。所提出的框架自然带来了诸如上下文学习能力和可重用的自监督预训练AudioMAE及潜在扩散模型等优势。在文本到音频、文本到音乐和文本到语音的主要基准测试中的实验表明，该框架在性能上达到了当前最佳或具有竞争力的结果。我们的代码、预训练模型和演示可在https://audioldm.github.io/audioldm2 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供