
摘要
可解释性是可信机器学习领域中一个新兴的研究方向。确保机器学习系统安全部署的关键在于,模型的预测结果及其解释必须具备可靠性与鲁棒性。近期研究表明,仅通过向输入数据添加视觉上难以察觉的扰动,即可轻易操纵模型的解释结果,而模型的预测输出却保持不变。本文针对归因鲁棒性(即模型具备鲁棒解释能力)这一问题展开研究,通过建立输入图像与其解释图之间空间相关性的上界,推导出归因脆弱性的理论上限。为此,我们提出一种新的训练方法——鲁棒归因训练(Robust Attribution Training, \textit{ART}),该方法通过最小化上述上界,并采用软间隔三元组损失(soft-margin triplet loss)来学习具有鲁棒性的特征表示。在多个标准数据集(包括SVHN、CIFAR-10和GTSRB)上,\textit{ART} 方法在归因鲁棒性指标上相较现有最优方法实现了约6%至18%的显著提升,达到新的技术水平。此外,我们进一步验证了所提出的鲁棒训练方法在下游任务中的实用性,特别是在弱监督目标定位任务中,在CUB-200数据集上取得了新的最先进性能。
代码仓库
nupurkmr9/Attributional-Robustness
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-object-localization-on-cub | ART | Top-1 Error Rate: 34.8 Top-1 Localization Accuracy: 65.22 |