6 个月前

摘要

在安全关键型应用中，识别道路场景中意外出现的物体（例如道路上的狗）对于保障安全至关重要。现有方法通常依赖外部数据集中的意外物体图像，或需要额外的训练过程（如重新训练分割网络，或训练额外的检测网络），这往往带来较高的劳动成本或较长的推理时间。一种可能的替代方案是利用预训练网络的预测得分（如最大logits，即在最终softmax层之前的各类别最大值）来检测此类异常物体。然而，不同预测类别对应的max logits分布存在显著差异，这会严重削弱在城市场景语义分割中识别意外物体的性能。为解决这一问题，本文提出一种简单而有效的方法：对max logits进行标准化处理，以对齐不同类别的分布，并准确反映各类别内部max logits的相对意义。此外，基于“邻近像素具有相似语义信息”的直观认知，我们从两个不同视角分析局部区域特征。与以往方法不同，本方法无需依赖任何外部数据集，也无需额外训练，因而可广泛适配现有的预训练分割模型。该方法结构简洁，却在公开的Fishyscapes Lost & Found排行榜上取得了显著优于现有方法的最新性能。相关代码已公开，可通过以下链接获取：https://github.com/shjung13/Standardized-max-logits。

源 PDF