
摘要
Transformer 已成为机器学习领域的重要基础模型,广泛应用于各类任务。这一趋势促使人们亟需发展可靠的可解释性方法以提升模型透明度。目前已有多种基于梯度信息的可解释性方法被提出。然而,我们发现 Transformer 中的梯度仅能反映局部函数特性,因此难以可靠地识别输入特征对模型预测的贡献。我们进一步揭示,注意力头(Attention Heads)和层归一化(LayerNorm)是导致解释结果不可靠的主要原因,并提出了一种更为稳定的前向传播机制以应对这些层的影响。所提出的方案可被视为对经典 LRP 方法在 Transformer 模型上的合理扩展。理论分析与实证研究均表明,该方法有效克服了简单梯度方法的局限性,在多种 Transformer 模型与数据集上均实现了当前最优的可解释性性能。
代码仓库
ameenali/xai_transformers
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-newsqa | xAI/grok-2-1212 | EM: 70.57 F1: 88.24 |