3 个月前

任意标注:基于视觉提示的多类别少样本语义分割

任意标注:基于视觉提示的多类别少样本语义分割

摘要

我们提出Label Anything,一种面向少样本语义分割(Few-Shot Semantic Segmentation, FSS)的创新神经网络架构,该架构在每类仅需极少样本的情况下,展现出卓越的跨类别泛化能力。与传统FSS方法主要依赖掩码(mask)标注支持图像不同,Label Anything引入了多样化的视觉提示(visual prompts),包括点、边界框和掩码,显著提升了框架的灵活性与适应性。本方法的独特之处在于,其专为多类别FSS场景下的端到端训练而设计,能够高效地从多种支持集配置中学习,无需重新训练。这一策略使得模型具备“通用性”,可广泛适用于从1-类1-shot到复杂N-类K-shot等多种FSS任务设置,且对各类别样本数量不敏感。该创新的训练范式不仅降低了计算开销,还显著增强了模型在各类分割任务中的适应性与泛化性能。通过全面的实验验证,尤其在COCO-$20^i$基准测试中取得当前最优(state-of-the-art)性能,充分证明了Label Anything强大的泛化能力与灵活性。项目源代码已公开,访问地址为:https://github.com/pasqualedem/LabelAnything。

代码仓库

pasqualedem/LabelAnything
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-semantic-segmentation-on-coco-20i-2-1Label Anything (Vit-B/16-SAM)
mIoU: 34.6
few-shot-semantic-segmentation-on-coco-20i-2-1Label Anything (ViT-B/16-MAE)
mIoU: 31.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
任意标注:基于视觉提示的多类别少样本语义分割 | 论文 | HyperAI超神经