HyperAIHyperAI

Command Palette

Search for a command to run...

5 个月前
LLM
DeepSeek
Agent

规范自校正:通过测试时优化缓解上下文奖励黑客行为

Víctor Gallego

Abstract

语言模型(LMs)容易受到“上下文奖励操控”(in-context reward hacking)的影响,即它们会利用有缺陷或有偏差的书面规范或评分标准中的漏洞,以获得高分,而并未真正满足用户的真实意图。我们提出了一种新的、在推理阶段(test-time)运行的框架——规范自修正(Specification Self-Correction, SSC),该框架使语言模型能够识别并修正自身所依据的规范中的缺陷。SSC 采用多步骤推理过程:模型首先根据可能存在偏差的规范生成回复,随后对输出内容进行评估,再自行修订规范以消除可被利用的漏洞。最后,使用这一经过自修正的规范生成更为稳健的回复。在涵盖创意写作和自主编码任务的多个实验中,我们证明,尽管模型在初始阶段会在 50%-70% 的情况下利用有偏差的规范,但 SSC 过程可使这种漏洞暴露率降低超过 90%。这种动态修复是在推理阶段完成的,无需修改模型参数,并能实现更稳健的模型行为。代码见 https://github.com/vicgalle/specification-self-correction


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
规范自校正:通过测试时优化缓解上下文奖励黑客行为 | Papers | HyperAI超神经