8 个月前

摘要

基于注意力机制的 Transformer 模型的出现，导致了其在各种任务中的广泛应用，这归功于它们卓越的泛化能力和迁移特性。最近的研究表明，当这些模型得到适当的提示时，它们在少量样本推理任务中表现出色。然而，对于密集预测任务（如语义分割）而言，这类技术尚未得到充分探索。在这项工作中，我们研究了通过学习到的视觉提示来提示 Transformer 解码器在广义少量样本分割（GFSS）任务中的有效性。我们的目标不仅是在仅有有限示例的新类别上实现强大的性能，同时还要保持对基础类别的性能。我们提出了一种在有限示例下学习视觉提示的方法。这些学习到的视觉提示用于提示多尺度 Transformer 解码器，以促进精确的密集预测。此外，我们引入了一种单向因果注意机制，该机制在仅用有限数据学习的新提示与大量数据学习的基础提示之间建立联系。这种机制丰富了新提示的内容，而不会削弱基础类别的性能。总体而言，这种形式的提示帮助我们在两个不同的基准数据集 COCO-20i 和 Pascal-5i 上实现了广义少量样本分割领域的最先进性能，无需进行测试时优化（或转导）。此外，利用未标记的测试数据进行测试时优化可以进一步改进这些提示，我们称之为转导式提示调优。

源 PDF