3 个月前

当文本与图像难以融合时：面向异常检测的语言-图像相似性得分偏差校正

摘要

对比语言-图像预训练（Contrastive Language-Image Pre-training, CLIP）通过图像与文本输入嵌入之间的对齐，在多种下游任务中取得了卓越性能，并在异常检测领域展现出巨大潜力。然而，我们的实证实验表明，文本输入的嵌入意外地紧密聚集在一起，与图像嵌入相距甚远，这与模型对比学习目标所期望的图像-文本对齐现象背道而驰。我们发现，这一现象导致了一种“相似性偏差”——由于图像与正常类别文本嵌入之间的相似性存在偏差，从而引发误报（false positive）和漏报（false negative）错误。为解决该偏差问题，我们提出一种新颖的方法——BLISS（Bias-aware Language-Image Similarity Suppression），该方法通过引入一个辅助的、外部的文本输入集合，直接建模并纠正这一相似性偏差。BLISS方法设计简洁，无需对异常行为施加强先验假设，也无需昂贵的训练过程，在基准图像数据集上的实验结果表明，其性能显著优于现有基线方法，即使在正常数据极度稀缺的情况下仍表现优异。

基准测试

基准	方法	指标
anomaly-detection-on-one-class-cifar-10	BLISS	AUROC: 99.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供