HyperAI超神经

摘要

大规模语言模型（LLMs）凭借在单一“下一个词预测”目标上的优化，展现出强大的多任务处理能力，迅速席卷全球。然而，随着模型自身属性和内嵌知识的不断涌现，其生成有害输出的风险显著上升，使其难以安全地面向公众进行规模化部署。为此，本文提出了一项全新的安全评估基准——RED-EVAL，该基准采用“红队测试”（red-teaming）范式，系统性地评估模型的安全性。我们发现，即使已广泛部署的先进模型，也极易受到基于“话语链”（Chain of Utterances, CoU）的提示攻击。此类攻击可使闭源LLM系统（如GPT-4和ChatGPT）在超过65%和73%的有害查询中产生不道德响应。此外，我们在8个开源LLM上验证了RED-EVAL的一致性，结果显示其在超过86%的红队测试尝试中均能成功诱导模型生成有害内容，表明该评估基准具有高度可靠性与普适性。在此基础上，我们进一步提出RED-INSTRUCT——一种面向LLM安全对齐的新方法，包含两个阶段：1）HARMFULQA数据构建：利用CoU提示技术，我们收集了一个涵盖广泛主题的1.9K条有害问题数据集，以及来自ChatGPT的9.5K条安全对话和7.3K条有害对话，构建了高质量的对话数据集；2）SAFE-ALIGN：我们展示了如何通过最小化有益回复的负对数似然，并在梯度层面通过样本损失强化惩罚有害回复，实现模型的安全对齐。基于该方法微调得到的模型STARLING（基于Vicuna-7B），在RED-EVAL与HHH基准测试中均表现出更强的安全对齐能力，同时在保留原始模型实用性的前提下，保持了在TruthfulQA、MMLU和BBH等基准上的优异性能，验证了其在安全性与功能性之间的良好平衡。

摘要

Rishabh Bhardwaj Soujanya Poria

摘要

用 AI 构建 AI

HyperAI Newsletters

Rishabh Bhardwaj Soujanya Poria

摘要

用 AI 构建 AI

HyperAI Newsletters

Rishabh Bhardwaj Soujanya Poria

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用话语链对大型语言模型进行红队测试以实现安全对齐

Rishabh Bhardwaj Soujanya Poria

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用话语链对大型语言模型进行红队测试以实现安全对齐

Rishabh Bhardwaj Soujanya Poria

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用话语链对大型语言模型进行红队测试以实现安全对齐

Rishabh Bhardwaj Soujanya Poria

摘要

用 AI 构建 AI

HyperAI Newsletters