6 个月前

摘要

现有的少样本分割方法主要基于元学习策略，从支持集（support set）中提取实例级知识，并将其应用于查询集（query set）中目标物体的分割。然而，由于所提取的知识仅来源于支持集中少量样本，难以充分应对类别内部的多样化差异。为解决这一问题，本文提出一种多信息聚合网络（Multi-Information Aggregation Network, MIANet），有效融合通用知识（即语义词嵌入）与实例级信息，以实现更精确的分割。具体而言，MIANet引入一个通用信息模块（General Information Module, GIM），通过词嵌入（word embeddings）提取类别的通用原型（general class prototype），作为对实例信息的补充。为此，我们设计了一种三元组损失（triplet loss），将通用类别原型作为锚点（anchor），从支持集的局部特征中构建正负样本对。该损失函数能够将语义层面的语言相似性从词嵌入空间映射至视觉表示空间，从而增强模型对语义语境的理解。为进一步缓解模型对训练阶段已见类别的偏好，并获取多尺度上下文信息，我们进一步提出一种非参数化分层先验模块（Hierarchical Prior Module, HPM），通过计算支持图像与查询图像特征之间的像素级相似性，生成无偏的实例级先验信息。最后，信息融合模块（Information Fusion Module, IFM）将通用知识与实例信息进行有效融合，用于生成查询图像的分割结果。在PASCAL-5i和COCO-20i两个基准数据集上的大量实验表明，MIANet显著优于现有方法，取得了新的最先进（state-of-the-art）性能。代码已开源，地址为：https://github.com/Aldrich2y/MIANet。

源 PDF