8 个月前

统一多模态

计算机视觉

Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell

摘要

开放词汇图像分割旨在根据任意文本描述将图像划分为语义区域。然而，复杂的视觉场景可以自然地分解为更简单的部分，并在多个粒度级别上进行抽象，这引入了固有的分割模糊性。与现有方法通常回避这种模糊性并将其视为外部因素不同，我们的方法积极地将包含不同语义级别的层次表示纳入学习过程。我们提出了一种解耦的文本-图像融合机制以及针对“物体”和“背景”的表征学习模块。此外，我们系统地研究了这些类别之间存在的文本特征和视觉特征的差异。我们所提出的模型命名为HIPIE（HIerarchical, oPen-vocabulary, and unIvErsal），在一个统一的框架内解决了层次化、开放词汇和通用分割任务。HIPIE在超过40个数据集上进行了基准测试，例如ADE20K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW和SeginW，在不同层次的图像理解任务中均取得了最先进的结果，包括语义级（如语义分割）、实例级（如全景/指代分割和目标检测）以及部件级（如部件/子部件分割）任务。我们的代码已发布在 https://github.com/berkeley-hipie/HIPIE。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

计算机视觉

Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell

摘要

开放词汇图像分割旨在根据任意文本描述将图像划分为语义区域。然而，复杂的视觉场景可以自然地分解为更简单的部分，并在多个粒度级别上进行抽象，这引入了固有的分割模糊性。与现有方法通常回避这种模糊性并将其视为外部因素不同，我们的方法积极地将包含不同语义级别的层次表示纳入学习过程。我们提出了一种解耦的文本-图像融合机制以及针对“物体”和“背景”的表征学习模块。此外，我们系统地研究了这些类别之间存在的文本特征和视觉特征的差异。我们所提出的模型命名为HIPIE（HIerarchical, oPen-vocabulary, and unIvErsal），在一个统一的框架内解决了层次化、开放词汇和通用分割任务。HIPIE在超过40个数据集上进行了基准测试，例如ADE20K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW和SeginW，在不同层次的图像理解任务中均取得了最先进的结果，包括语义级（如语义分割）、实例级（如全景/指代分割和目标检测）以及部件级（如部件/子部件分割）任务。我们的代码已发布在 https://github.com/berkeley-hipie/HIPIE。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供