4 个月前

HyperSeg:利用大型语言模型实现通用视觉分割

HyperSeg:利用大型语言模型实现通用视觉分割

摘要

本文旨在利用视觉大语言模型(VLLMs)的强大推理能力解决图像和视频感知中的通用分割问题。尽管当前的统一分割方法已经取得了显著进展,但在适应图像和视频场景以及复杂推理分割方面仍存在局限性,这使得它们难以处理各种具有挑战性的指令并实现对细粒度视觉-语言关联的准确理解。为此,我们提出了HyperSeg,这是首个基于VLLM的用于像素级图像和视频感知的通用分割模型,涵盖了通用分割任务及需要强大推理能力和世界知识的更复杂的感知任务。此外,为了充分利用VLLM的识别能力和细粒度视觉信息,HyperSeg集成了混合实体识别模块和细粒度视觉感知模块,以应对各种分割任务。结合时间适配器,HyperSeg实现了对时间信息的全面理解。实验结果验证了我们的见解在解决通用图像和视频分割任务(包括更复杂的推理感知任务)方面的有效性。我们的代码已公开。

代码仓库

congvvc/HyperSeg
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HyperSeg:利用大型语言模型实现通用视觉分割 | 论文 | HyperAI超神经