6 个月前

摘要

语言模型（LMs）容易受到“上下文奖励操控”（in-context reward hacking）的影响，即它们会利用有缺陷或有偏差的书面规范或评分标准中的漏洞，以获得高分，而并未真正满足用户的真实意图。我们提出了一种新的、在推理阶段（test-time）运行的框架——规范自修正（Specification Self-Correction, SSC），该框架使语言模型能够识别并修正自身所依据的规范中的缺陷。SSC 采用多步骤推理过程：模型首先根据可能存在偏差的规范生成回复，随后对输出内容进行评估，再自行修订规范以消除可被利用的漏洞。最后，使用这一经过自修正的规范生成更为稳健的回复。在涵盖创意写作和自主编码任务的多个实验中，我们证明，尽管模型在初始阶段会在 50%-70% 的情况下利用有偏差的规范，但 SSC 过程可使这种漏洞暴露率降低超过 90%。这种动态修复是在推理阶段完成的，无需修改模型参数，并能实现更稳健的模型行为。代码见 https://github.com/vicgalle/specification-self-correction。

源 PDF 查看代码