4 个月前

LISA:基于大型语言模型的推理分割

LISA:基于大型语言模型的推理分割

摘要

尽管感知系统在近年来取得了显著进展,但在执行视觉识别任务之前,它们仍然依赖于明确的人类指令或预定义的类别来识别目标对象。这些系统无法主动推理并理解用户的隐含意图。在本研究中,我们提出了一种新的分割任务——推理分割。该任务旨在根据复杂且隐含的查询文本输出分割掩码。此外,我们建立了一个包含超过一千个图像-指令-掩码数据样本的基准测试集,用于评估复杂的推理能力和世界知识。最后,我们介绍了LISA:大型语言指导分割助手,它继承了多模态大语言模型(LLMs)的语言生成能力,同时具备生成分割掩码的能力。我们通过添加一个<SEG>标记扩展了原始词汇表,并提出了嵌入作为掩码的方法(embedding-as-mask paradigm),以解锁分割功能。值得注意的是,LISA能够处理涉及复杂推理和世界知识的情况。此外,当仅在无推理的数据集上进行训练时,LISA展示了强大的零样本能力。进一步地,仅使用239个推理分割数据样本对模型进行微调即可实现性能提升。定量和定性实验均表明我们的方法有效地为多模态大语言模型解锁了新的推理分割能力。代码、模型和数据可在https://github.com/dvlab-research/LISA获取。

代码仓库

dvlab-research/lisa
官方
pytorch
GitHub 中提及
sunsmarterjie/chatterbox
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-video-object-segmentation-on-revosLISA (LLaVA-13B)
F: 43.5
J: 39.8
Ju0026F: 41.6
R: 8.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LISA:基于大型语言模型的推理分割 | 论文 | HyperAI超神经