8 个月前

摘要

增强大型语言模型（LLMs）以理解音频——包括非语音声音和非言语表达——对于LLMs在多种现实世界应用中的广泛使用至关重要。本文中，我们提出了一种新型的音频语言模型——Audio Flamingo，该模型具备1）强大的音频理解能力，2）通过上下文学习和检索快速适应未见过的任务的能力，以及3）强大的多轮对话能力。我们介绍了一系列训练技术、架构设计和数据策略来提升模型的这些能力。广泛的评估结果显示，我们的方法在各种音频理解任务中均有效，并设立了新的最先进基准。我们的演示网站为https://audioflamingo.github.io/，代码已开源至https://github.com/NVIDIA/audio-flamingo。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro

摘要

增强大型语言模型（LLMs）以理解音频——包括非语音声音和非言语表达——对于LLMs在多种现实世界应用中的广泛使用至关重要。本文中，我们提出了一种新型的音频语言模型——Audio Flamingo，该模型具备1）强大的音频理解能力，2）通过上下文学习和检索快速适应未见过的任务的能力，以及3）强大的多轮对话能力。我们介绍了一系列训练技术、架构设计和数据策略来提升模型的这些能力。广泛的评估结果显示，我们的方法在各种音频理解任务中均有效，并设立了新的最先进基准。我们的演示网站为https://audioflamingo.github.io/，代码已开源至https://github.com/NVIDIA/audio-flamingo。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

音频火烈鸟：一种具有少样本学习和对话能力的新型音频语言模型

Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

音频火烈鸟：一种具有少样本学习和对话能力的新型音频语言模型

Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

音频火烈鸟：一种具有少样本学习和对话能力的新型音频语言模型

Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters