4 个月前

大型语言模型的指令遵循评估

大型语言模型的指令遵循评估

摘要

大型语言模型(LLMs)的一项核心能力是遵循自然语言指令。然而,这种能力的评估尚未标准化:人工评估成本高昂、速度缓慢且不具备客观可重复性,而基于LLM的自动评估则可能存在偏见或受制于评估者LLM的能力。为了解决这些问题,我们引入了针对大型语言模型的指令遵循评估(Instruction-Following Eval, IFEval)。IFEval 是一个简单且易于重现的评估基准。它专注于一组“可验证指令”,例如“字数超过400字”和“至少提及人工智能关键词3次”。我们确定了25种此类可验证指令,并构建了约500个提示,每个提示包含一条或多条可验证指令。我们展示了市场上两种广泛可用的LLM在该基准上的评估结果。我们的代码和数据可以在以下地址获取:https://github.com/google-research/google-research/tree/master/instruction_following_eval

基准测试

基准方法指标
instruction-following-on-ifevalPaLM 2 S
Inst-level loose-accuracy: 59.11
Inst-level strict-accuracy: 55.76
Prompt-level loose-accuracy: 46.95
Prompt-level strict-accuracy: 43.07
instruction-following-on-ifevalGPT-4
Inst-level loose-accuracy: 85.37
Inst-level strict-accuracy: 83.57
Prompt-level loose-accuracy: 79.3
Prompt-level strict-accuracy: 76.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大型语言模型的指令遵循评估 | 论文 | HyperAI超神经