
摘要
我们介绍了Kosmos-2,一种多模态大语言模型(Multimodal Large Language Model, MLLM),该模型具备新的能力,可以感知对象描述(例如,边界框)并将文本与视觉世界对齐。具体而言,我们将指代表达表示为Markdown中的链接,即``文本片段'',其中对象描述是由位置标记组成的序列。结合多模态语料库,我们构建了大规模的图像-文本对数据集(称为GrIT)来训练该模型。除了现有的多模态大语言模型的能力(如感知一般模态、遵循指令和进行上下文学习)之外,Kosmos-2还将对齐能力集成到下游应用中。我们在多种任务上评估了Kosmos-2,包括(i)多模态对齐任务,如指代表达理解及短语对齐;(ii)多模态指代任务,如指代表达生成;(iii)感知-语言任务;以及(iv)语言理解和生成任务。这项工作为具身智能的发展奠定了基础,并揭示了语言、多模态感知、行动和世界建模的大融合趋势,这是实现通用人工智能的关键步骤之一。代码和预训练模型可在https://aka.ms/kosmos-2获取。
代码仓库
rabiulcste/vqazero
pytorch
GitHub 中提及
microsoft/unilm/tree/master/kosmos-2
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-vip-bench | Kosmos-2 (Discrete Token) | GPT-4 score (bbox): 26.9 |