
摘要
可解释人工智能(Explainable Artificial Intelligence, XAI)自监管机构开始要求在安全关键领域使用可解释模型以来,迅速发展。概念驱动的神经网络作为“设计即可解释”的方法应运而生,其通过人类可理解的符号(即概念)来预测类别归属,从而提升模型的可解释性。然而,现有大多数方法仅关注识别与预测最相关的概念,却未能提供简洁、形式化的解释,说明分类器如何利用这些概念进行决策。本文提出一种全新的端到端可微分方法,能够基于一阶逻辑(First-Order Logic)形式化体系,从神经网络中提取逻辑解释。该方法依赖于一种基于熵的判别准则,可自动识别出最具相关性的概念。通过四个不同的案例研究,本文证明:(i)该熵基准则能够在从临床数据到计算机视觉的安全关键领域中,有效提炼出简洁且形式化的逻辑解释;(ii)所提出的方法在分类准确率方面优于当前最先进的白盒模型,并在性能上达到甚至媲美黑盒模型的水平。
代码仓库
pietrobarbiero/pytorch_explain
官方
pytorch
pietrobarbiero/entropy-lens
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cub | Entropy-based Logic Explained Network | Classification Accuracy: 0.9295 Explanation Accuracy: 95.24 Explanation complexity: 3.74 Explanation extraction time: 171.87 |
| image-classification-on-cub | Bayesian Rule List | Classification Accuracy: 0.9079 Explanation Accuracy: 96.02 Explanation complexity: 8.87 Explanation extraction time: 264678.29 |
| image-classification-on-cub | Decision Tree | Classification Accuracy: 0.8162 Explanation Accuracy: 89.36 Explanation complexity: 45.92 Explanation extraction time: 8.1 |
| image-classification-on-cub | $psi$ network | Classification Accuracy: 0.9192 Explanation Accuracy: 76.1 Explanation complexity: 15.96 Explanation extraction time: 3707.29 |