3 个月前

基于视觉-语言表征的分布外检测研究

基于视觉-语言表征的分布外检测研究

摘要

在开放世界中部署的机器学习系统,识别分布外(Out-of-Distribution, OOD)样本至关重要。目前绝大多数OOD检测方法仅依赖单一模态(如仅视觉或仅语言),未能充分利用多模态表征中蕴含的丰富信息。受近期视觉-语言预训练技术成功的启发,本文将OOD检测的范式从单模态拓展至多模态,丰富了该领域的研究格局。具体而言,我们提出了一种简单而有效的零样本OOD检测方法——最大概念匹配(Maximum Concept Matching, MCM),其核心思想是通过将视觉特征与文本概念进行对齐来实现检测。本文还提供了深入的分析与理论洞察,以揭示MCM方法有效性的内在机制。大量实验表明,MCM在多种真实世界任务中均展现出卓越性能。在一项具有挑战性的OOD任务上,当类别语义相近时,基于视觉-语言特征的MCM方法相较于仅使用纯视觉特征的基线方法,AUROC指标提升达13.1%。相关代码已开源,地址为:https://github.com/deeplearning-wisc/MCM。

代码仓库

HHU-MMBS/plp-official-tmlr2024
pytorch
GitHub 中提及

基准测试

基准方法指标
out-of-distribution-detection-on-imagenet-1k-10MCM (CLIP-B)
AUROC: 86.11
FPR95: 57.77
out-of-distribution-detection-on-imagenet-1k-10MCM (CLIP-L)
AUROC: 84.88
FPR95: 59.88
out-of-distribution-detection-on-imagenet-1k-12MCM (CLIP-L)
AUROC: 91.49
FPR95: 38.17
out-of-distribution-detection-on-imagenet-1k-3MCM (CLIP-L)
AUROC: 94.95
FPR95: 28.38
out-of-distribution-detection-on-imagenet-1k-3MCM (CLIP-B)
AUROC: 94.61
FPR95: 30.91
out-of-distribution-detection-on-imagenet-1k-8MCM (CLIP-L)
AUROC: 94.14
FPR95: 29.00
out-of-distribution-detection-on-imagenet-1k-8MCM (CLIP-B)
AUROC: 92.57
FPR95: 37.59
out-of-distribution-detection-on-imagenet-1k-9MCM (CLIP-L)
AUROC: 92.00
FPR95: 35.42
out-of-distribution-detection-on-imagenet-1k-9MCM (CLIP-B)
AUROC: 89.77
FPR95: 44.69

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视觉-语言表征的分布外检测研究 | 论文 | HyperAI超神经