4 个月前

自然语言处理

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

摘要

大型推理模型（LRMs）通过生成结构化的思维链（Chain-of-Thought, CoT）来“思考”，然后再输出最终答案。然而，这些模型在安全对齐方面的批判性推理能力仍然不足，当错误的前提被引入其推理过程时，极易产生偏见。为此，我们提出了RECAP（通过反向对齐预填充实现鲁棒安全对齐），这是一种基于强化学习（RL）的后训练原则性方法，旨在明确教导模型在面对错误推理路径时能够主动中断并转向安全、有益的回应。RECAP在合成生成的反向对齐CoT预填充与标准提示的混合数据上进行训练，无需额外的训练成本或对基础人类反馈强化学习（RLHF）框架的修改，即可显著提升模型的安全性与抗规避攻击能力，减少过度拒绝现象，同时完整保留核心推理能力——所有改进均在不增加推理阶段token消耗的前提下实现。大量分析表明，经过RECAP训练的模型展现出更频繁的自我反思行为，并在面对自适应攻击时仍保持稳健，即使在多次尝试干扰其推理过程后，依然能有效维持安全性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

自然语言处理

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

摘要

大型推理模型（LRMs）通过生成结构化的思维链（Chain-of-Thought, CoT）来“思考”，然后再输出最终答案。然而，这些模型在安全对齐方面的批判性推理能力仍然不足，当错误的前提被引入其推理过程时，极易产生偏见。为此，我们提出了RECAP（通过反向对齐预填充实现鲁棒安全对齐），这是一种基于强化学习（RL）的后训练原则性方法，旨在明确教导模型在面对错误推理路径时能够主动中断并转向安全、有益的回应。RECAP在合成生成的反向对齐CoT预填充与标准提示的混合数据上进行训练，无需额外的训练成本或对基础人类反馈强化学习（RLHF）框架的修改，即可显著提升模型的安全性与抗规避攻击能力，减少过度拒绝现象，同时完整保留核心推理能力——所有改进均在不增加推理阶段token消耗的前提下实现。大量分析表明，经过RECAP训练的模型展现出更频繁的自我反思行为，并在面对自适应攻击时仍保持稳健，即使在多次尝试干扰其推理过程后，依然能有效维持安全性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供