
摘要
增强大型语言模型(LLMs)以理解音频——包括非语音声音和非言语表达——对于LLMs在多种现实世界应用中的广泛使用至关重要。本文中,我们提出了一种新型的音频语言模型——Audio Flamingo,该模型具备1)强大的音频理解能力,2)通过上下文学习和检索快速适应未见过的任务的能力,以及3)强大的多轮对话能力。我们介绍了一系列训练技术、架构设计和数据策略来提升模型的这些能力。广泛的评估结果显示,我们的方法在各种音频理解任务中均有效,并设立了新的最先进基准。我们的演示网站为https://audioflamingo.github.io/,代码已开源至https://github.com/NVIDIA/audio-flamingo。
代码仓库
NVIDIA/audio-flamingo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| acoustic-scene-classification-on-cochlscene | Audio Flamingo | 1:1 Accuracy: 0.830 |
| audio-captioning-on-clotho | Audio Flamingo (Pengi trainset) | BLEU-4: 17.4 CIDEr: 0.489 METEOR: 18.7 ROUGE-L: 39.4 SPICE: 0.134 SPIDEr: 0.312 |
| retrieval-augmented-few-shot-in-context-audio | Audio Flamingo (4-shot) | CIDEr: 0.518 |
| zero-shot-audio-captioning-on-audiocaps | Audio Flamingo | BLEU-4: 14.3 CIDEr: 50.2 METEOR: 20.5 ROUGE-L: 40.8 SPICE: 15.1 SPIDEr: 32.6 |