
摘要
尽管机器学习模型已被广泛采用,它们在很大程度上仍是“黑箱”。然而,理解预测背后的依据对于评估信任度至关重要——这在基于预测采取行动,或决定是否部署新模型时尤为关键。这种理解还能为模型本身提供洞察,从而帮助将不可信的模型或预测转化为可信的模型。在本研究中,我们提出LIME,一种新颖的解释技术,能够以可解释且忠实的方式,对任意分类器的预测进行解释,其核心思想是通过学习预测点附近的局部可解释模型来实现。我们还提出一种通过非冗余方式呈现代表性个体预测及其解释的方法,并将该任务建模为子模优化问题。我们通过解释不同类型的模型(如用于文本分类的随机森林和用于图像分类的神经网络)展示了该方法的灵活性。此外,我们通过一系列新颖的实验(包括模拟实验和人类被试实验),在多种需要信任的场景中验证了解释的实用性,涵盖判断是否应信任某一预测、在不同模型间进行选择、改进不可信分类器,以及识别为何不应信任某个分类器等问题。
代码仓库
adrhill/explainableai.jl
pytorch
GitHub 中提及
hieu2906090/deep-learning-in-js
tf
GitHub 中提及
nyuvis/explanation_explorer
GitHub 中提及
dailab/maxi-xai-lib
pytorch
GitHub 中提及
Kungbohan/EECSMed
tf
GitHub 中提及
aildnont/HIFIS-model
tf
GitHub 中提及
AlexIoannides/lime-interpretable-ml
GitHub 中提及
priyamtejaswin/devise-keras
GitHub 中提及
stiasta/fraud_detection_notes
pytorch
GitHub 中提及
emanuel-metzenthin/lime-for-time
GitHub 中提及
Mahdidrm/Emotion-Recognition
tf
GitHub 中提及
TooTouch/WhiteBox-Part2
tf
GitHub 中提及
Nadhila/Explainble-AI
GitHub 中提及
blazecolby/PyTorch-LIME
pytorch
GitHub 中提及
thomasp85/lime
GitHub 中提及
marcotcr/lime
pytorch
GitHub 中提及
quantabox/literature
GitHub 中提及
marcotcr/lime-experiments
官方
GitHub 中提及
LaurentLava/Lime
GitHub 中提及
galdeia/iirsbenchmark
GitHub 中提及
rashidrao-pk/lime_stratified
pytorch
GitHub 中提及
MachineLearningJournalClub/LearningNLP
pytorch
GitHub 中提及
pytorch/captum
pytorch
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| image-attribution-on-celeba | LIME | Deletion AUC score (ArcFace ResNet-101): 0.1484 Insertion AUC score (ArcFace ResNet-101): 0.5246 | 
| image-attribution-on-cub-200-2011-1 | LIME | Deletion AUC score (ResNet-101): 0.1070 Insertion AUC score (ResNet-101): 0.6812 | 
| image-attribution-on-vggface2 | LIME | Deletion AUC score (ArcFace ResNet-101): 0.2119 Insertion AUC score (ArcFace ResNet-101): 0.6185 | 
| interpretability-techniques-for-deep-learning-1 | LIME | Insertion AUC score: 0.5246 |