HyperAI

摘要

视觉指令调优大型语言模型（LLM）在图像-文本对上的训练已经实现了通用的视觉-语言能力。然而，缺乏区域-文本对限制了其在细粒度多模态理解方面的进展。本文中，我们提出了一种空间指令调优方法，该方法在指令中引入了感兴趣区域（Region-of-Interest, RoI）的参考。在将参考发送给LLM之前，参考被替换为RoI特征，并与语言嵌入交织成一个序列。我们的模型GPT4RoI在7个区域-文本对数据集上进行训练，相比之前的图像级模型，带来了前所未有的交互和对话体验。超越语言的交互：用户可以通过语言和绘制边界框的方式与我们的模型进行互动，灵活调整引用的粒度。多样化的多模态能力：GPT4RoI可以挖掘每个RoI中的各种属性信息，例如颜色、形状、材料、动作等。此外，它还可以基于常识对多个RoI进行推理。在视觉常识推理（Visual Commonsense Reasoning, VCR）数据集上，GPT4RoI达到了显著的81.6%准确率，远超所有现有模型（第二名准确率为75.6%），几乎达到人类水平的表现（85.0%）。代码和模型可以在https://github.com/jshilong/GPT4RoI找到。

摘要

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

摘要

用 AI 构建 AI

HyperAI Newsletters

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

摘要

用 AI 构建 AI

HyperAI Newsletters

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GPT4RoI：在感兴趣区域上对大型语言模型进行指令调优

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GPT4RoI：在感兴趣区域上对大型语言模型进行指令调优

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GPT4RoI：在感兴趣区域上对大型语言模型进行指令调优

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

摘要

用 AI 构建 AI

HyperAI Newsletters