
摘要
我们提出了一种概念简洁且轻量级的框架,通过结合知识蒸馏与数据增强来提升视觉模型的鲁棒性。我们挑战了“模型越大,教师效果越好”这一普遍假设,实证表明,从预训练的基础模型(foundation models)中进行知识蒸馏,能够显著提升模型在分布外(out-of-distribution)情况下的鲁棒性。基于这一发现,我们提出了离散对抗蒸馏(Discrete Adversarial Distillation, DAD),该方法利用一个鲁棒的教师模型生成对抗样本,并通过VQGAN对这些样本进行离散化处理,从而生成比传统数据增强技术更具信息量的训练样本。我们为在数据增强场景下使用鲁棒教师进行知识蒸馏提供了理论框架,并在多种学生模型架构上验证了该方法在分布外鲁棒性与干净准确率(clean accuracy)方面的显著提升。值得注意的是,与同类方法相比,本方法仅引入极小的计算开销,且可轻松与其他数据增强技术结合,进一步提升性能。
代码仓库
lapisrocks/DiscreteAdversarialDistillation
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-imagenet-a | Discrete Adversarial Distillation (ResNet-50) | Top-1 accuracy %: 7.7 |
| domain-generalization-on-imagenet-a | Discrete Adversarial Distillation (ViT-B/224) | Top-1 accuracy %: 31.8 |
| domain-generalization-on-imagenet-r | Discrete Adversarial Distillation (ViT-B,224) | Top-1 Error Rate: 34.9 |
| domain-generalization-on-imagenet-sketch | Discrete Adversarial Distillation (ViT-B, 224) | Top-1 accuracy: 46.1 |
| image-classification-on-imagenet | Discrete Adversarial Distillation (ViT-B, 224) | Top 1 Accuracy: 81.9% |
| image-classification-on-imagenet-v2 | Discrete Adversarial Distillation (ViT-B, 224) | Top 1 Accuracy: 71.7 |