
摘要
对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP)通过图像与文本输入嵌入之间的对齐,在多种下游任务中取得了卓越性能,并在异常检测领域展现出巨大潜力。然而,我们的实证实验表明,文本输入的嵌入意外地紧密聚集在一起,与图像嵌入相距甚远,这与模型对比学习目标所期望的图像-文本对齐现象背道而驰。我们发现,这一现象导致了一种“相似性偏差”——由于图像与正常类别文本嵌入之间的相似性存在偏差,从而引发误报(false positive)和漏报(false negative)错误。为解决该偏差问题,我们提出一种新颖的方法——BLISS(Bias-aware Language-Image Similarity Suppression),该方法通过引入一个辅助的、外部的文本输入集合,直接建模并纠正这一相似性偏差。BLISS方法设计简洁,无需对异常行为施加强先验假设,也无需昂贵的训练过程,在基准图像数据集上的实验结果表明,其性能显著优于现有基线方法,即使在正常数据极度稀缺的情况下仍表现优异。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| anomaly-detection-on-one-class-cifar-10 | BLISS | AUROC: 99.1 |