
摘要
我们提出在数据域中学习不变表示,以实现算法公平性中的可解释性。不变性意味着模型能够选择与类别标签标注相关的高层次、关键相关性,同时对与受保护特征(如种族或性别)相关的无关相关性具有鲁棒性。为此,我们构建了一个非平凡的设定:训练集存在显著偏差,导致类别标签标注变得无关,且虚假相关性无法被区分。为应对这一挑战,我们提出一种经过对抗训练的模型,并结合零样本采样(null-sampling)机制,以在数据域中生成不变表示。为实现表示的解耦,我们引入了一个部分标注的代表性数据集。通过将表示映射回数据域,模型所做出的改变可被人类审计者直观检视。我们在图像和表格数据集上验证了该方法的有效性,涵盖彩色MNIST、CelebA以及Adult数据集。
代码仓库
predictive-analytics-lab/nifr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-celeba-64x64 | CNN | Accuracy: 0.67 |
| image-classification-on-celeba-64x64 | cVAE | Accuracy: 0.81 |
| image-classification-on-celeba-64x64 | cFlow | Accuracy: 0.82 |