摘要

对抗训练是一种有效的深度神经网络训练方法，旨在使模型对对抗性的、范数有界的扰动具有鲁棒性。然而，随着模型规模和输入维度的增加，对抗训练的计算成本急剧上升，变得难以承受。此外，针对成本较低且因此较弱的对抗者进行训练会产生对弱攻击具有鲁棒性但对更强攻击则失效的模型。这种现象通常归因于梯度混淆；此类模型在训练样本附近具有高度非线性的损失曲面，使得基于梯度的攻击即使在存在对抗样本的情况下也难以成功。在这项工作中，我们引入了一种新的正则化器，该正则化器鼓励损失在训练数据附近表现出线性行为，从而惩罚梯度混淆并促进鲁棒性。通过在CIFAR-10和ImageNet上的大量实验，我们展示了使用该正则化器训练的模型可以避免梯度混淆，并且比传统的对抗训练显著更快。利用这一正则化器，我们在未经目标的强白盒攻击下，对于半径为4/255的l-无穷范数对抗扰动（l-infinity adversarial perturbations），ImageNet达到了47%的对抗准确率。此外，在CIFAR-10上，我们的方法在8/255的扰动下也达到了当前最佳水平。

源 PDF