4 个月前

Kosmos-2:将多模态大语言模型与现实世界结合

Kosmos-2:将多模态大语言模型与现实世界结合

摘要

我们介绍了Kosmos-2,一种多模态大语言模型(Multimodal Large Language Model, MLLM),该模型具备新的能力,可以感知对象描述(例如,边界框)并将文本与视觉世界对齐。具体而言,我们将指代表达表示为Markdown中的链接,即``文本片段'',其中对象描述是由位置标记组成的序列。结合多模态语料库,我们构建了大规模的图像-文本对数据集(称为GrIT)来训练该模型。除了现有的多模态大语言模型的能力(如感知一般模态、遵循指令和进行上下文学习)之外,Kosmos-2还将对齐能力集成到下游应用中。我们在多种任务上评估了Kosmos-2,包括(i)多模态对齐任务,如指代表达理解及短语对齐;(ii)多模态指代任务,如指代表达生成;(iii)感知-语言任务;以及(iv)语言理解和生成任务。这项工作为具身智能的发展奠定了基础,并揭示了语言、多模态感知、行动和世界建模的大融合趋势,这是实现通用人工智能的关键步骤之一。代码和预训练模型可在https://aka.ms/kosmos-2获取。

代码仓库

rabiulcste/vqazero
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-vip-benchKosmos-2 (Discrete Token)
GPT-4 score (bbox): 26.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Kosmos-2:将多模态大语言模型与现实世界结合 | 论文 | HyperAI超神经