
摘要
逻辑异常(Logical Anomalies, LA)指的是违反图像中隐含逻辑约束的数据,例如图像内各组件的数量、排列方式或构成关系不符合预期。准确检测此类异常需要模型能够通过分割手段对多种组件类型进行推理。然而,语义分割任务所需的像素级标注数据的收集既耗时又成本高昂。尽管已有部分少样本或无监督的共同组件分割算法,但在工业物体图像上表现往往不佳。这类图像中的组件通常具有相似的纹理和形状,精确区分存在较大挑战。在本研究中,我们提出一种新型的组件分割模型,用于逻辑异常检测,该模型仅需少量标注样本及大量共享逻辑约束的未标注图像即可完成训练。为确保未标注图像间分割结果的一致性,我们引入直方图匹配损失(histogram matching loss)与熵损失(entropy loss)相结合的策略。由于分割预测在异常检测中起关键作用,我们进一步设计了三个记忆库(memory banks),分别存储类别直方图、组件构成嵌入(component composition embeddings)以及局部图像块表示(patch-level representations),以捕捉视觉语义中的关键特征,从而增强对局部与全局样本有效性的检测能力。为实现高效的逻辑异常检测,我们提出一种自适应缩放策略,在推理阶段对来自不同记忆库的异常得分进行标准化处理。在公开基准数据集 MVTec LOCO AD 上的大量实验表明,本方法在逻辑异常检测任务中取得了 98.1% 的 AUROC 分数,显著优于现有方法的 89.6%。
代码仓库
oopil/PSAD_logical_anomaly_detection
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| anomaly-detection-on-mvtec-loco-ad | PSAD | Avg. Detection AUROC: 94.9 Detection AUROC (only logical): 98.1 Detection AUROC (only structural): 91.6 |