4 个月前

Qwen-Audio:通过统一的大规模音频-语言模型推进通用音频理解

Qwen-Audio:通过统一的大规模音频-语言模型推进通用音频理解

摘要

近期,指令跟随音频语言模型在与人类进行音频互动方面受到了广泛关注。然而,缺乏能够处理多种音频类型和任务的预训练音频模型阻碍了该领域的进展。因此,现有的大多数工作仅能支持有限范围的交互能力。本文中,我们开发了Qwen-Audio模型,并通过扩展音频语言预训练来涵盖超过30项任务和各种音频类型(如人类语音、自然声音、音乐和歌曲),以促进普遍的音频理解能力。然而,直接共同训练所有任务和数据集可能会导致干扰问题,因为不同数据集中的文本标签由于任务重点、语言、注释粒度和文本结构的不同而存在显著差异。为了解决这种一对多的干扰问题,我们精心设计了一个多任务训练框架,通过对解码器施加一系列层次标签来进行条件化处理,从而分别通过共享标签和特定标签鼓励知识共享并避免干扰。值得注意的是,Qwen-Audio在多个基准任务上表现出色,无需任何针对特定任务的微调即可超越其同类模型。在此基础上,我们进一步开发了Qwen-Audio-Chat,该模型允许接收来自各种音频和文本输入的信息,实现多轮对话,并支持多种以音频为中心的应用场景。

代码仓库

qwenlm/qwen-audio
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
acoustic-scene-classification-on-cochlsceneQwen-Audio
1:1 Accuracy: 0.795
acoustic-scene-classification-on-tut-acousticQwen-Audio
1:1 Accuracy: 0.649
audio-captioning-on-clothoQwen-Audio
CIDEr: 0.441
SPICE: 0.136
SPIDEr: 0.288
audio-classification-on-vocalsoundQwen-Audio
Accuracy : 92.89
emotion-recognition-in-conversation-on-meldQwen-Audio
Accuracy: 55.70
speech-recognition-on-aishell-1Qwen-Audio
Word Error Rate (WER): 1.29
speech-recognition-on-aishell-2-test-android-1Qwen-Audio
Word Error Rate (WER): 3.3
speech-recognition-on-aishell-2-test-iosQwen-Audio
Word Error Rate (WER): 3.1
speech-recognition-on-aishell-2-test-mic-1Qwen-Audio
Word Error Rate (WER): 3.3
speech-recognition-on-librispeech-test-cleanQwen-Audio
Word Error Rate (WER): 2.0
speech-recognition-on-librispeech-test-otherQwen-Audio
Word Error Rate (WER): 4.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Qwen-Audio:通过统一的大规模音频-语言模型推进通用音频理解 | 论文 | HyperAI超神经