4 个月前

音频火烈鸟:一种具有少样本学习和对话能力的新型音频语言模型

音频火烈鸟:一种具有少样本学习和对话能力的新型音频语言模型

摘要

增强大型语言模型(LLMs)以理解音频——包括非语音声音和非言语表达——对于LLMs在多种现实世界应用中的广泛使用至关重要。本文中,我们提出了一种新型的音频语言模型——Audio Flamingo,该模型具备1)强大的音频理解能力,2)通过上下文学习和检索快速适应未见过的任务的能力,以及3)强大的多轮对话能力。我们介绍了一系列训练技术、架构设计和数据策略来提升模型的这些能力。广泛的评估结果显示,我们的方法在各种音频理解任务中均有效,并设立了新的最先进基准。我们的演示网站为https://audioflamingo.github.io/,代码已开源至https://github.com/NVIDIA/audio-flamingo。

代码仓库

NVIDIA/audio-flamingo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
acoustic-scene-classification-on-cochlsceneAudio Flamingo
1:1 Accuracy: 0.830
audio-captioning-on-clothoAudio Flamingo (Pengi trainset)
BLEU-4: 17.4
CIDEr: 0.489
METEOR: 18.7
ROUGE-L: 39.4
SPICE: 0.134
SPIDEr: 0.312
retrieval-augmented-few-shot-in-context-audioAudio Flamingo (4-shot)
CIDEr: 0.518
zero-shot-audio-captioning-on-audiocapsAudio Flamingo
BLEU-4: 14.3
CIDEr: 50.2
METEOR: 20.5
ROUGE-L: 40.8
SPICE: 15.1
SPIDEr: 32.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
音频火烈鸟:一种具有少样本学习和对话能力的新型音频语言模型 | 论文 | HyperAI超神经