4 个月前

视觉提示用于泛化少样本分割:一种多尺度方法

视觉提示用于泛化少样本分割:一种多尺度方法

摘要

基于注意力机制的变压器模型的出现,导致了其在各种任务中的广泛应用,这归功于它们卓越的泛化能力和迁移特性。最近的研究表明,当这些模型得到适当的提示时,它们在少量样本推理任务中表现出色。然而,对于密集预测任务(如语义分割)而言,这类技术尚未得到充分探索。在这项工作中,我们研究了通过学习到的视觉提示来提示变压器解码器在广义少量样本分割(GFSS)任务中的有效性。我们的目标不仅是在仅有有限示例的新类别上实现强大的性能,同时还要保持对基础类别的性能。我们提出了一种在有限示例下学习视觉提示的方法。这些学习到的视觉提示用于提示多尺度变压器解码器,以促进精确的密集预测。此外,我们引入了一种单向因果注意机制,该机制在仅用有限数据学习的新提示与大量数据学习的基础提示之间建立联系。这种机制丰富了新提示的内容,而不会削弱基础类别的性能。总体而言,这种形式的提示帮助我们在两个不同的基准数据集 COCO-20i 和 Pascal-5i 上实现了广义少量样本分割领域的最先进性能,无需进行测试时优化(或转导)。此外,利用未标记的测试数据进行测试时优化可以进一步改进这些提示,我们称之为转导式提示调优。

代码仓库

基准测试

基准方法指标
generalized-few-shot-semantic-segmentation-onVisualPromptGFSS
Mean Base and Novel: 58.11
generalized-few-shot-semantic-segmentation-on-1VisualPromptGFSS
Mean Base and Novel: 66.27
generalized-few-shot-semantic-segmentation-on-2VisualPromptGFSS
Mean Base and Novel: 36.05
generalized-few-shot-semantic-segmentation-on-3VisualPromptGFSS
Mean Base and Novel: 42.48

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉提示用于泛化少样本分割:一种多尺度方法 | 论文 | HyperAI超神经