HyperAIHyperAI

Command Palette

Search for a command to run...

3 个月前
LLM
偏好
推理

大型推理模型从有缺陷的思维中学习到更好的对齐

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

Abstract

大型推理模型(LRMs)通过生成结构化的思维链(Chain-of-Thought, CoT)来“思考”,然后再输出最终答案。然而,这些模型在安全对齐方面的批判性推理能力仍然不足,当错误的前提被引入其推理过程时,极易产生偏见。为此,我们提出了RECAP(通过反向对齐预填充实现鲁棒安全对齐),这是一种基于强化学习(RL)的后训练原则性方法,旨在明确教导模型在面对错误推理路径时能够主动中断并转向安全、有益的回应。RECAP在合成生成的反向对齐CoT预填充与标准提示的混合数据上进行训练,无需额外的训练成本或对基础人类反馈强化学习(RLHF)框架的修改,即可显著提升模型的安全性与抗规避攻击能力,减少过度拒绝现象,同时完整保留核心推理能力——所有改进均在不增加推理阶段token消耗的前提下实现。大量分析表明,经过RECAP训练的模型展现出更频繁的自我反思行为,并在面对自适应攻击时仍保持稳健,即使在多次尝试干扰其推理过程后,依然能有效维持安全性能。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大型推理模型从有缺陷的思维中学习到更好的对齐 | Papers | HyperAI超神经