3 个月前

匹配器:通过通用特征匹配实现单次输入的任意分割

匹配器:通过通用特征匹配实现单次输入的任意分割

摘要

基于大规模预训练,视觉基础模型在开放世界图像理解任务中展现出巨大潜力。然而,与在各类语言任务中表现优异的大型语言模型不同,视觉基础模型通常需要针对特定任务设计专用的模型结构,并在具体任务上进行微调。在本工作中,我们提出了一种名为Matcher的新颖感知范式,该范式利用现成的视觉基础模型,无需训练即可应对多种感知任务。Matcher仅通过一个上下文示例即可实现“任意分割”(segment anything),展现出强大的零样本泛化能力。此外,我们在Matcher框架内设计了三个高效组件,与基础模型协同工作,充分释放其在多样化感知任务中的潜力。实验结果表明,Matcher在多种分割任务上均展现出卓越的泛化性能,且全程无需训练。例如,在COCO-20$^i$数据集上,仅使用一个示例即达到52.7%的mIoU,超越当前最优专用模型1.6%。此外,在我们提出的LVIS-92$^i$数据集上,Matcher在单样本语义分割任务中取得33.0%的mIoU,较当前最优通用模型提升14.4%。可视化结果进一步验证了Matcher在真实世界图像中的开放域泛化能力与灵活性。相关代码已开源,地址为:https://github.com/aim-uofa/Matcher。

代码仓库

aim-uofa/matcher
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-semantic-segmentation-on-coco-20i-1Matcher(DINOv2)
Mean IoU: 52.7
few-shot-semantic-segmentation-on-coco-20i-5Matcher(DINOv2)
Mean IoU: 60.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
匹配器:通过通用特征匹配实现单次输入的任意分割 | 论文 | HyperAI超神经