3 个月前

当文本与图像难以融合时:面向异常检测的语言-图像相似性得分偏差校正

当文本与图像难以融合时:面向异常检测的语言-图像相似性得分偏差校正

摘要

对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP)通过图像与文本输入嵌入之间的对齐,在多种下游任务中取得了卓越性能,并在异常检测领域展现出巨大潜力。然而,我们的实证实验表明,文本输入的嵌入意外地紧密聚集在一起,与图像嵌入相距甚远,这与模型对比学习目标所期望的图像-文本对齐现象背道而驰。我们发现,这一现象导致了一种“相似性偏差”——由于图像与正常类别文本嵌入之间的相似性存在偏差,从而引发误报(false positive)和漏报(false negative)错误。为解决该偏差问题,我们提出一种新颖的方法——BLISS(Bias-aware Language-Image Similarity Suppression),该方法通过引入一个辅助的、外部的文本输入集合,直接建模并纠正这一相似性偏差。BLISS方法设计简洁,无需对异常行为施加强先验假设,也无需昂贵的训练过程,在基准图像数据集上的实验结果表明,其性能显著优于现有基线方法,即使在正常数据极度稀缺的情况下仍表现优异。

基准测试

基准方法指标
anomaly-detection-on-one-class-cifar-10BLISS
AUROC: 99.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
当文本与图像难以融合时:面向异常检测的语言-图像相似性得分偏差校正 | 论文 | HyperAI超神经