
摘要
大多数多模态大语言模型(Multimodal Large Language Models, MLLMs)通过因果语言建模学习语言到对象的对齐,其中对齐的对象通过边界框作为位置标记序列来捕捉。这种范式缺乏像素级表示,而这些表示对于细粒度视觉理解和诊断至关重要。在本研究中,我们引入了GROUNDHOG,这是一种通过将大语言模型与整体分割对齐而开发的多模态大语言模型。GROUNDHOG结合了一个掩码特征提取器,并将提取的特征转换为视觉实体标记,供MLLM主干网络使用,然后通过检索和合并实体掩码,将可对齐的短语连接到统一的对齐掩码上。为了训练GROUNDHOG,我们精心策划了M3G2数据集,这是一个具有多模态多粒度对齐(Multi-Modal Multi-Grained Grounding)的接地视觉指令调优数据集,通过收集多个带有丰富注释的分割对齐数据集构建而成。实验结果表明,GROUNDHOG在各种语言对齐任务中表现出色,无需针对特定任务进行微调,并显著减少了对象幻觉现象。此外,GROUNDHOG还展示了对复杂形式视觉输入更好的对齐能力,并在失败案例中提供了易于理解的诊断信息。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| generalized-referring-expression-segmentation | GROUNDHOG | gIoU: 66.70 |
| referring-expression-segmentation-on | GROUNDHOG | Mean IoU: 54.5 |
| referring-expression-segmentation-on-refcoco | GROUNDHOG | Overall IoU: 78.5 |
| referring-expression-segmentation-on-refcoco-3 | GROUNDHOG | Overall IoU: 70.5 |
| referring-expression-segmentation-on-refcoco-4 | GROUNDHOG | Overall IoU: 75.0 |
| referring-expression-segmentation-on-refcoco-5 | GROUNDHOG | Overall IoU: 64.9 |
| referring-expression-segmentation-on-refcocog | GROUNDHOG | Overall IoU: 74.1 |
| referring-expression-segmentation-on-refcocog-1 | GROUNDHOG | Overall IoU: 74.6 |