Command Palette
Search for a command to run...

摘要
大型语言模型(LLMs)在多种任务上表现出色,但常常表现出认知惰性,难以遵循与监督微调(SFT)阶段所学习的标准化模式相冲突的指令。为评估这一局限性,我们提出了 Inverse IFEval——一个用于衡量模型“反直觉能力”的基准测试,即模型克服训练引发的偏见、遵从对抗性指令的能力。Inverse IFEval 引入了八类挑战,包括问题修正、故意引入文本缺陷、无注释代码以及反事实回答等。通过采用“人机协同”(human-in-the-loop)的数据构建流程,我们构建了一个涵盖23个领域、共1012个高质量中英文问题的数据集,并在优化后的“大模型作为评判者”(LLM-as-a-Judge)框架下进行评估。对现有主流大模型的实验结果表明,我们提出的 Inverse IFEval 基准测试具有必要性。研究发现强调,未来的对齐(alignment)研究不仅应追求语言流畅性和事实正确性,还应考虑模型在非常规情境下的适应能力。我们期望 Inverse IFEval 能够成为诊断认知惰性问题的工具,并为开发缓解认知惰性、降低对狭窄模式过拟合的新方法提供基础,从而最终提升大语言模型在多样化且不可预测的真实场景中的指令遵循可靠性。