3 个月前

进或出?修复ImageNet分布外检测评估

进或出?修复ImageNet分布外检测评估

摘要

分布外(Out-of-distribution, OOD)检测旨在识别与分布内(in-distribution, ID)任务无关的输入样本。当前,当分布内数据为ImageNet-1K时,OOD检测性能通常在少数几个测试用的OOD数据集上进行评估。我们发现,目前广泛使用的多数测试OOD数据集,包括来自开放集识别(open set recognition, OSR)文献中的数据集,存在严重问题:在某些情况下,数据集中超过50%的样本实际上属于ID类别中的对象。这些错误样本严重扭曲了对OOD检测器性能的评估结果。为此,我们提出了一个新的测试OOD数据集NINCO,其每个样本均经过严格验证,确保不含任何ID类别样本。NINCO具有细粒度的OOD类别划分,能够支持对OOD检测器性能的细致分析,尤其在结合一系列合成的“OOD单元测试”(OOD unit-tests)时,可有效揭示检测器的优势与失效模式。我们在NINCO数据集及这些单元测试上,对大量网络架构和OOD检测方法进行了详尽评估,揭示了模型在OOD检测中的潜在弱点,以及预训练策略对检测性能的影响。相关代码与数据已开源,地址为:https://github.com/j-cb/NINCO。

代码仓库

j-cb/ninco
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
out-of-distribution-detection-on-imagenet-1k-13EffNetb7 Relative Cosine Sim
AUROC: 87.9
FPR@95: 53.7
out-of-distribution-detection-on-imagenet-1k-13ViT-B-384 Mahalanobis (pre-trained on IN-21k)
AUROC: 95.0
FPR@95: 27.5
out-of-distribution-detection-on-imagenet-1k-13EffNetv2-M Relative Mahalanobis
AUROC: 88.9
FPR@95: 54.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
进或出?修复ImageNet分布外检测评估 | 论文 | HyperAI超神经