
摘要
分布外(Out-of-distribution, OOD)检测是将机器学习模型部署于现实应用场景中实现安全AI不可或缺的一环。以往的方法主要通过探索更优的评分函数,或利用异常样本的知识来增强模型的OOD检测能力。然而,这些方法大多忽视了模型本身固有的OOD检测潜力。本文中,我们普遍发现:在对分布内(In-distribution, ID)数据进行训练的过程中,模型在某一中间阶段的OOD检测性能反而优于其最终训练阶段,这一现象在多种设置下均成立。进一步分析表明,造成该现象的关键因素在于模型对异常样本的学习。基于这一洞察,我们提出一种新方法——Unleashing Mask,旨在通过ID数据恢复已充分训练模型的OOD判别能力。该方法利用掩码机制识别模型中记忆的异常样本,并通过引入掩码对模型进行微调或剪枝,以实现对这些异常样本的遗忘。大量实验与深入分析验证了所提方法的有效性。代码已开源,地址为:https://github.com/tmlr-group/Unleashing-Mask。
代码仓库
tmlr-group/unleashing-mask
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| out-of-distribution-detection-on-imagenet-1k-10 | ODIN+UMAP (ResNet-50) | AUROC: 88.35 FPR95: 42.02 |
| out-of-distribution-detection-on-imagenet-1k-12 | ODIN+UMAP (ResNet-50) | AUROC: 89.24 FPR95: 40.94 |
| out-of-distribution-detection-on-imagenet-1k-3 | ODIN+UMAP (ResNet-50) | AUROC: 94.71 FPR95: 21.97 |
| out-of-distribution-detection-on-imagenet-1k-8 | ODIN+UMAP (ResNet-50) | AUROC: 86.92 FPR95: 49.69 |
| out-of-distribution-detection-on-imagenet-1k-9 | ODIN+UMAP (ResNet-50) | AUROC: 86.99 FPR95: 50.06 |