8 个月前

摘要

现代学习算法在生成准确但复杂的数据模型方面表现出色。然而，将这些模型部署到现实世界中需要额外的谨慎：我们必须确保它们的可靠性、鲁棒性和不存在不希望的偏见。这促使了开发出同样准确但可以轻松检查和评估其预测性能之外的模型。为此，我们引入了上下文解释网络（Contextual Explanation Networks, CEN）——一类通过生成和利用中间简化概率模型来学习预测的架构。具体而言，CENs 生成中间图形模型的参数，这些参数进一步用于预测并充当解释的角色。与现有的事后模型解释工具不同，CENs 同时学习预测和解释。我们的方法提供了两个主要优势：(i) 每个预测都会生成有效的实例特定解释，且无需额外计算开销；(ii) 通过解释进行预测起到了正则化的作用，并在数据稀缺的情况下提升了性能。我们从理论和实验两方面对所提出的框架进行了分析。结果表明，CENs 不仅在图像分类、文本分类和生存分析任务上具有竞争力，还为每个预测提供了额外的洞察力，这对于决策支持非常有价值。此外，我们还展示了事后方法在某些情况下可能会产生误导性的解释，而 CENs 则具有一致性，并能够系统地检测到这些情况。

源 PDF