
摘要
我们在对抗样本防御的设计中发现了一个鲁棒性和准确率之间的权衡问题,这一问题可以作为指导原则。尽管这一问题已经得到了广泛的实证研究,但其背后的理论仍然有许多未知之处。在本研究中,我们将对抗样本的预测误差(鲁棒误差)分解为自然(分类)误差和边界误差之和,并利用分类校准损失的理论提供了一个可微分的上界,该上界被证明是在所有概率分布和可测预测器上均匀分布的最紧致的上界。受我们理论分析的启发,我们还设计了一种新的防御方法——TRADES,以在对抗鲁棒性和准确率之间进行权衡。我们的算法在实际数据集中的实验表现良好。该方法是我们参加NeurIPS 2018 对抗视觉挑战赛的基础,在约2,000份提交中,我们获得了第1名的成绩,平均$\ell_2$扰动距离比第二名高出11.41%。
代码仓库
zjfheart/Friendly-Adversarial-Training
pytorch
GitHub 中提及
nutellamok/advrush
pytorch
GitHub 中提及
goldblum/AdversariallyRobustDistillation
pytorch
GitHub 中提及
optimization-for-data-driven-science/dair
pytorch
GitHub 中提及
yaodongyu/TRADES
官方
pytorch
GitHub 中提及
salomonhotegni/MOREL
pytorch
TonyYaoMSU/TRADES
pytorch
GitHub 中提及
val-iisc/flss
pytorch
GitHub 中提及
arobey1/advbench
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| adversarial-attack-on-cifar-10 | TRADES [zhang2019b] | Attack: PGD20: 45.900 |