
摘要
近期,指令跟随音频语言模型在与人类进行音频互动方面受到了广泛关注。然而,缺乏能够处理多种音频类型和任务的预训练音频模型阻碍了该领域的进展。因此,现有的大多数工作仅能支持有限范围的交互能力。本文中,我们开发了Qwen-Audio模型,并通过扩展音频语言预训练来涵盖超过30项任务和各种音频类型(如人类语音、自然声音、音乐和歌曲),以促进普遍的音频理解能力。然而,直接共同训练所有任务和数据集可能会导致干扰问题,因为不同数据集中的文本标签由于任务重点、语言、注释粒度和文本结构的不同而存在显著差异。为了解决这种一对多的干扰问题,我们精心设计了一个多任务训练框架,通过对解码器施加一系列层次标签来进行条件化处理,从而分别通过共享标签和特定标签鼓励知识共享并避免干扰。值得注意的是,Qwen-Audio在多个基准任务上表现出色,无需任何针对特定任务的微调即可超越其同类模型。在此基础上,我们进一步开发了Qwen-Audio-Chat,该模型允许接收来自各种音频和文本输入的信息,实现多轮对话,并支持多种以音频为中心的应用场景。
代码仓库
qwenlm/qwen-audio
官方
pytorch
GitHub 中提及
alibaba-damo-academy/FunASR
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| acoustic-scene-classification-on-cochlscene | Qwen-Audio | 1:1 Accuracy: 0.795 |
| acoustic-scene-classification-on-tut-acoustic | Qwen-Audio | 1:1 Accuracy: 0.649 |
| audio-captioning-on-clotho | Qwen-Audio | CIDEr: 0.441 SPICE: 0.136 SPIDEr: 0.288 |
| audio-classification-on-vocalsound | Qwen-Audio | Accuracy : 92.89 |
| emotion-recognition-in-conversation-on-meld | Qwen-Audio | Accuracy: 55.70 |
| speech-recognition-on-aishell-1 | Qwen-Audio | Word Error Rate (WER): 1.29 |
| speech-recognition-on-aishell-2-test-android-1 | Qwen-Audio | Word Error Rate (WER): 3.3 |
| speech-recognition-on-aishell-2-test-ios | Qwen-Audio | Word Error Rate (WER): 3.1 |
| speech-recognition-on-aishell-2-test-mic-1 | Qwen-Audio | Word Error Rate (WER): 3.3 |
| speech-recognition-on-librispeech-test-clean | Qwen-Audio | Word Error Rate (WER): 2.0 |
| speech-recognition-on-librispeech-test-other | Qwen-Audio | Word Error Rate (WER): 4.2 |