3 个月前

语言引导的对抗净化

语言引导的对抗净化

摘要

基于生成模型的对抗净化方法在对抗防御方面表现出优异的性能。这类方法具有分类器无关性和攻击无关性,因而具备较强的通用性,但通常计算开销较大。近年来,扩散模型与得分网络(score networks)的进展显著提升了图像生成能力,从而也推动了对抗净化技术的发展。另一类高效对抗防御方法——对抗训练,则需依赖对攻击向量的特定先验知识,因而必须在大量对抗样本上进行充分训练。为克服上述局限,本文提出一种新型框架——语言引导的对抗净化(Language Guided Adversarial Purification, LGAP),该框架利用预训练的扩散模型与图像描述生成器,实现对对抗攻击的有效防御。给定输入图像后,我们的方法首先生成对应的文本描述(caption),再将该描述作为语义指导,通过扩散网络引导对抗净化过程。实验结果表明,LGAP在面对多种强对抗攻击时均表现出色,显著提升了模型的对抗鲁棒性。更重要的是,该方法无需针对特定任务进行专门的网络训练,即可超越多数现有防御技术。这一结果凸显了大规模数据预训练模型所具备的强泛化能力,也为未来对抗防御研究指明了极具潜力的新方向。

代码仓库

Visual-Conception-Group/LGAP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
adversarial-defense-on-cifar-10WRN-28-10
Accuracy: 90.03
Robust Accuracy: 71.68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言引导的对抗净化 | 论文 | HyperAI超神经