
摘要
大型多模态模型(LMMs)在指令调优技术的发展下取得了显著的突破。然而,尽管现有的模型能够在整体层面上理解和处理图像和视频,但在实例级理解方面仍面临挑战,这需要更加细致的感知和对齐能力。实例级理解至关重要,因为它专注于我们最感兴趣的特定元素。令人兴奋的是,现有研究发现,当提供明确的视觉提示时,最先进的LMMs表现出强大的实例理解能力。受此启发,我们引入了一种由GPT-4o辅助的自动化注释管道,通过显式的视觉提示提取图像和视频中的实例级信息以进行实例引导。基于这一管道,我们提出了Inst-IT方案,旨在通过显式视觉提示指令调优来增强LMMs的实例理解能力。Inst-IT包括一个用于诊断多模态实例级理解的基准测试、一个大规模的指令调优数据集以及一种连续指令调优训练范式,以有效提升现有LMMs的空间-时间实例理解能力。实验结果表明,在Inst-IT的助力下,我们的模型不仅在Inst-IT基准测试中表现出色,还在各种通用图像和视频理解基准测试中显示出显著改进。这突显了我们的数据集不仅提升了实例级理解能力,还增强了通用图像和视频理解的整体性能。
代码仓库
inst-it/inst-it
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-vip-bench | LLaVA-NeXT-Inst-IT-Qwen2-7B (Visual Prompt | GPT-4 score (bbox): 50.5 GPT-4 score (human): 49.0 |
| visual-question-answering-on-vip-bench | LLaVA-NeXT-Inst-IT-Vicuna-7B (Visual Prompt | GPT-4 score (bbox): 45.1 GPT-4 score (human): 48.2 |