8 个月前

摘要

我们介绍了一种名为Groma的多模态大语言模型（Multimodal Large Language Model, MLLM），该模型具备基于地面的细粒度视觉感知能力。除了整体图像理解外，Groma还擅长区域级别的任务，如区域描述和视觉定位。这些能力是通过一种局部化的视觉分词机制实现的，其中图像输入被分解为感兴趣的区域，并随后编码为区域标记。通过将区域标记整合到用户指令和模型响应中，我们无缝地使Groma能够理解用户指定的区域输入，并将其文本输出与图像进行对齐。此外，为了增强Groma的基于地面的聊天能力，我们利用强大的GPT-4V和视觉提示技术精心编制了一个视觉接地指令数据集。与依赖语言模型或外部模块进行定位的MLLM相比，Groma在标准指代和接地基准测试中始终表现出色，突显了将定位嵌入图像分词的优势。项目页面：https://groma-mllm.github.io/。

源 PDF 查看代码