
摘要
信息以多种模态呈现。多模态原生人工智能模型对于整合现实世界的信息并提供全面的理解至关重要。尽管存在专有的多模态原生模型,但其封闭性给应用带来了障碍,更不用说对其进行适应性调整了。为了填补这一空白,我们推出了 Aria,这是一种在广泛多模态、语言和编码任务中表现出色的开放多模态原生模型。Aria 是一种专家混合模型,每个视觉标记和文本标记分别具有 39 亿和 35 亿激活参数。它在各种多模态任务上超越了 Pixtral-12B 和 Llama3.2-11B,并且与最佳的专有模型具有竞争力。我们从零开始预训练 Aria,遵循一个四阶段的流水线,逐步赋予模型强大的语言理解能力、多模态理解能力、长上下文窗口以及指令跟随能力。我们开源了该模型的权重,并提供了一个代码库,以便于 Aria 在实际应用中的轻松采用和适应性调整。
代码仓库
rhymes-ai/aria
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-tvbench | Aria | Average Accuracy: 51.0 |