4 个月前

Groma:用于多模态大语言模型的局部视觉标记化

Groma:用于多模态大语言模型的局部视觉标记化

摘要

我们介绍了一种名为Groma的多模态大语言模型(Multimodal Large Language Model, MLLM),该模型具备基于地面的细粒度视觉感知能力。除了整体图像理解外,Groma还擅长区域级别的任务,如区域描述和视觉定位。这些能力是通过一种局部化的视觉分词机制实现的,其中图像输入被分解为感兴趣的区域,并随后编码为区域标记。通过将区域标记整合到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出与图像进行对齐。此外,为了增强Groma的基于地面的聊天能力,我们利用强大的GPT-4V和视觉提示技术精心编制了一个视觉接地指令数据集。与依赖语言模型或外部模块进行定位的MLLM相比,Groma在标准指代和接地基准测试中始终表现出色,突显了将定位嵌入图像分词的优势。项目页面:https://groma-mllm.github.io/。

代码仓库

FoundationVision/Groma
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
natural-language-visual-grounding-onGroma
Accuracy (%): 5.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Groma:用于多模态大语言模型的局部视觉标记化 | 论文 | HyperAI超神经