8 个月前

统一多模态

多任务学习

音频和语音处理

Yunfei Chu* Jin Xu* Xiaohuan Zhou* Qian Yang Shiliang Zhang Zhijie Yan Chang Zhou† Jingren Zhou

摘要

近期，指令跟随音频语言模型在与人类进行音频互动方面受到了广泛关注。然而，缺乏能够处理多种音频类型和任务的预训练音频模型阻碍了该领域的进展。因此，现有的大多数工作仅能支持有限范围的交互能力。本文中，我们开发了Qwen-Audio模型，并通过扩展音频语言预训练来涵盖超过30项任务和各种音频类型（如人类语音、自然声音、音乐和歌曲），以促进普遍的音频理解能力。然而，直接共同训练所有任务和数据集可能会导致干扰问题，因为不同数据集中的文本标签由于任务重点、语言、注释粒度和文本结构的不同而存在显著差异。为了解决这种一对多的干扰问题，我们精心设计了一个多任务训练框架，通过对解码器施加一系列层次标签来进行条件化处理，从而分别通过共享标签和特定标签鼓励知识共享并避免干扰。值得注意的是，Qwen-Audio在多个基准任务上表现出色，无需任何针对特定任务的微调即可超越其同类模型。在此基础上，我们进一步开发了Qwen-Audio-Chat，该模型允许接收来自各种音频和文本输入的信息，实现多轮对话，并支持多种以音频为中心的应用场景。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

多任务学习

音频和语音处理

Yunfei Chu* Jin Xu* Xiaohuan Zhou* Qian Yang Shiliang Zhang Zhijie Yan Chang Zhou† Jingren Zhou

摘要

近期，指令跟随音频语言模型在与人类进行音频互动方面受到了广泛关注。然而，缺乏能够处理多种音频类型和任务的预训练音频模型阻碍了该领域的进展。因此，现有的大多数工作仅能支持有限范围的交互能力。本文中，我们开发了Qwen-Audio模型，并通过扩展音频语言预训练来涵盖超过30项任务和各种音频类型（如人类语音、自然声音、音乐和歌曲），以促进普遍的音频理解能力。然而，直接共同训练所有任务和数据集可能会导致干扰问题，因为不同数据集中的文本标签由于任务重点、语言、注释粒度和文本结构的不同而存在显著差异。为了解决这种一对多的干扰问题，我们精心设计了一个多任务训练框架，通过对解码器施加一系列层次标签来进行条件化处理，从而分别通过共享标签和特定标签鼓励知识共享并避免干扰。值得注意的是，Qwen-Audio在多个基准任务上表现出色，无需任何针对特定任务的微调即可超越其同类模型。在此基础上，我们进一步开发了Qwen-Audio-Chat，该模型允许接收来自各种音频和文本输入的信息，实现多轮对话，并支持多种以音频为中心的应用场景。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Qwen-Audio：通过统一的大规模音频-语言模型推进通用音频理解 | 论文 | HyperAI超神经