3 个月前

使用话语链对大型语言模型进行红队测试以实现安全对齐

使用话语链对大型语言模型进行红队测试以实现安全对齐

摘要

大规模语言模型(LLMs)凭借在单一“下一个词预测”目标上的优化,展现出强大的多任务处理能力,迅速席卷全球。然而,随着模型自身属性和内嵌知识的不断涌现,其生成有害输出的风险显著上升,使其难以安全地面向公众进行规模化部署。为此,本文提出了一项全新的安全评估基准——RED-EVAL,该基准采用“红队测试”(red-teaming)范式,系统性地评估模型的安全性。我们发现,即使已广泛部署的先进模型,也极易受到基于“话语链”(Chain of Utterances, CoU)的提示攻击。此类攻击可使闭源LLM系统(如GPT-4和ChatGPT)在超过65%和73%的有害查询中产生不道德响应。此外,我们在8个开源LLM上验证了RED-EVAL的一致性,结果显示其在超过86%的红队测试尝试中均能成功诱导模型生成有害内容,表明该评估基准具有高度可靠性与普适性。在此基础上,我们进一步提出RED-INSTRUCT——一种面向LLM安全对齐的新方法,包含两个阶段:1)HARMFULQA数据构建:利用CoU提示技术,我们收集了一个涵盖广泛主题的1.9K条有害问题数据集,以及来自ChatGPT的9.5K条安全对话和7.3K条有害对话,构建了高质量的对话数据集;2)SAFE-ALIGN:我们展示了如何通过最小化有益回复的负对数似然,并在梯度层面通过样本损失强化惩罚有害回复,实现模型的安全对齐。基于该方法微调得到的模型STARLING(基于Vicuna-7B),在RED-EVAL与HHH基准测试中均表现出更强的安全对齐能力,同时在保留原始模型实用性的前提下,保持了在TruthfulQA、MMLU和BBH等基准上的优异性能,验证了其在安全性与功能性之间的良好平衡。

代码仓库

declare-lab/red-instruct
官方
pytorch
GitHub 中提及
leondiao0427/seas
pytorch
GitHub 中提及

基准测试

基准方法指标
text-generation-on-harmfulqaGPT-4
ASR: 65.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用话语链对大型语言模型进行红队测试以实现安全对齐 | 论文 | HyperAI超神经