4 个月前

Inst-IT:通过显式视觉提示指令调优提升多模态实例理解

Inst-IT:通过显式视觉提示指令调优提升多模态实例理解

摘要

大型多模态模型(LMMs)在指令调优技术的发展下取得了显著的突破。然而,尽管现有的模型能够在整体层面上理解和处理图像和视频,但在实例级理解方面仍面临挑战,这需要更加细致的感知和对齐能力。实例级理解至关重要,因为它专注于我们最感兴趣的特定元素。令人兴奋的是,现有研究发现,当提供明确的视觉提示时,最先进的LMMs表现出强大的实例理解能力。受此启发,我们引入了一种由GPT-4o辅助的自动化注释管道,通过显式的视觉提示提取图像和视频中的实例级信息以进行实例引导。基于这一管道,我们提出了Inst-IT方案,旨在通过显式视觉提示指令调优来增强LMMs的实例理解能力。Inst-IT包括一个用于诊断多模态实例级理解的基准测试、一个大规模的指令调优数据集以及一种连续指令调优训练范式,以有效提升现有LMMs的空间-时间实例理解能力。实验结果表明,在Inst-IT的助力下,我们的模型不仅在Inst-IT基准测试中表现出色,还在各种通用图像和视频理解基准测试中显示出显著改进。这突显了我们的数据集不仅提升了实例级理解能力,还增强了通用图像和视频理解的整体性能。

代码仓库

inst-it/inst-it
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-vip-benchLLaVA-NeXT-Inst-IT-Qwen2-7B (Visual Prompt
GPT-4 score (bbox): 50.5
GPT-4 score (human): 49.0
visual-question-answering-on-vip-benchLLaVA-NeXT-Inst-IT-Vicuna-7B (Visual Prompt
GPT-4 score (bbox): 45.1
GPT-4 score (human): 48.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Inst-IT:通过显式视觉提示指令调优提升多模态实例理解 | 论文 | HyperAI超神经