8 个月前

计算机视觉

Dahyun Kang Minsu Cho

摘要

我们提出了一种名为懒惰视觉定位（lazy visual grounding）的方法，该方法分为两个阶段：无监督对象掩码发现和对象定位，用于开放词汇表的语义分割。许多先前的研究将这一任务视为像素到文本的分类问题，而没有进行对象级别的理解，利用预训练的视觉-语言模型的图像到文本分类能力。我们认为，视觉对象在本质上是一个视觉任务，即使没有先验的文本信息也可以被区分开来。懒惰视觉定位首先通过迭代归一化切割（Normalized cuts）发现覆盖图像的对象掩码，然后以延迟交互的方式为这些已发现的对象分配文本标签。我们的模型无需额外训练，在五个公开数据集上表现出色：Pascal VOC、Pascal Context、COCO-object、COCO-stuff 和 ADE 20K。特别是，具有视觉吸引力的分割结果展示了模型精确定位对象的能力。论文主页：https://cvlab.postech.ac.kr/research/lazygrounding

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Dahyun Kang Minsu Cho

摘要

我们提出了一种名为懒惰视觉定位（lazy visual grounding）的方法，该方法分为两个阶段：无监督对象掩码发现和对象定位，用于开放词汇表的语义分割。许多先前的研究将这一任务视为像素到文本的分类问题，而没有进行对象级别的理解，利用预训练的视觉-语言模型的图像到文本分类能力。我们认为，视觉对象在本质上是一个视觉任务，即使没有先验的文本信息也可以被区分开来。懒惰视觉定位首先通过迭代归一化切割（Normalized cuts）发现覆盖图像的对象掩码，然后以延迟交互的方式为这些已发现的对象分配文本标签。我们的模型无需额外训练，在五个公开数据集上表现出色：Pascal VOC、Pascal Context、COCO-object、COCO-stuff 和 ADE 20K。特别是，具有视觉吸引力的分割结果展示了模型精确定位对象的能力。论文主页：https://cvlab.postech.ac.kr/research/lazygrounding

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供