
摘要
大型语言模型(LLMs)的一项核心能力是遵循自然语言指令。然而,这种能力的评估尚未标准化:人工评估成本高昂、速度缓慢且不具备客观可重复性,而基于LLM的自动评估则可能存在偏见或受制于评估者LLM的能力。为了解决这些问题,我们引入了针对大型语言模型的指令遵循评估(Instruction-Following Eval, IFEval)。IFEval 是一个简单且易于重现的评估基准。它专注于一组“可验证指令”,例如“字数超过400字”和“至少提及人工智能关键词3次”。我们确定了25种此类可验证指令,并构建了约500个提示,每个提示包含一条或多条可验证指令。我们展示了市场上两种广泛可用的LLM在该基准上的评估结果。我们的代码和数据可以在以下地址获取:https://github.com/google-research/google-research/tree/master/instruction_following_eval
代码仓库
deepseek-ai/deepseek-llm
pytorch
GitHub 中提及
josejg/instruction_following_eval
GitHub 中提及
lightblue-tech/M-IFEval
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instruction-following-on-ifeval | PaLM 2 S | Inst-level loose-accuracy: 59.11 Inst-level strict-accuracy: 55.76 Prompt-level loose-accuracy: 46.95 Prompt-level strict-accuracy: 43.07 |
| instruction-following-on-ifeval | GPT-4 | Inst-level loose-accuracy: 85.37 Inst-level strict-accuracy: 83.57 Prompt-level loose-accuracy: 79.3 Prompt-level strict-accuracy: 76.89 |