Lianmin ZhengWei-Lin ChiangYing ShengSiyuan ZhuangZhanghao WuYonghao ZhuangZi LinZhuohan LiDacheng LiEric P. XingHao ZhangJoseph E. GonzalezIon Stoica

摘要
由于大语言模型(LLM)具备广泛的能力,而现有评估基准在衡量人类偏好方面存在不足,因此对基于大语言模型的聊天助手进行评估极具挑战性。为应对这一问题,我们探索利用强语言模型作为评判者,对这些模型在更具开放性的问题上的表现进行评估。我们系统分析了“LLM作为评判者”(LLM-as-a-judge)的使用方式及其局限性,包括位置偏差(position bias)、冗长性偏差(verbosity bias)、自我增强偏差(self-enhancement bias)以及推理能力有限等问题,并提出了相应的缓解策略。随后,我们通过引入两个新基准来验证LLM评判者与人类偏好之间的一致性:MT-bench——一个包含多轮对话的问答数据集;以及Chatbot Arena——一个基于众包的模型对抗评测平台。实验结果表明,像GPT-4这样的强LLM评判者能够很好地匹配受控环境和众包环境下的人类偏好,达成超过80%的一致性,其表现水平与人类之间的共识相当。因此,LLM作为评判者是一种可扩展且具备可解释性的方法,能够有效近似原本获取成本极高的真实人类偏好。此外,我们进一步展示了本研究所提出的基准与传统基准之间的互补性,通过在多个LLaMA和Vicuna变体上进行评估得以验证。目前,MT-bench中的3,000份专家投票、30,000条带有真实人类偏好的对话数据均已公开,可访问于:https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge。
代码仓库
opengvlab/multi-modality-arena
pytorch
GitHub 中提及
lm-sys/routellm
pytorch
GitHub 中提及
formulamonks/llm-benchmarker-suite
pytorch
GitHub 中提及
ojiyumm/mt_bench_rwkv
pytorch
GitHub 中提及
lm-sys/fastchat
官方
pytorch
ilyagusev/ping_pong_bench
GitHub 中提及
theoremone/llm-benchmarker-suite
pytorch
GitHub 中提及
PAIR-code/llm-comparator
tf
GitHub 中提及
kuk/rulm-sbs2
GitHub 中提及
dongping-chen/mllm-as-a-judge
pytorch
GitHub 中提及
bjoernpl/fasteval
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| long-context-understanding-on-ada-leval | Vicuna-7b-v1.5-16k | 12k: 1.9 16k: 1.0 1k: 37.0 2k: 11.1 4k: 5.8 6k: 3.2 8k: 1.8 |
| long-context-understanding-on-ada-leval | LongChat-7b-v1.5-32k | 12k: 1.6 16k: 0.8 1k: 32.4 2k: 10.7 4k: 5.7 6k: 3.1 8k: 1.9 |
| long-context-understanding-on-ada-leval | Vicuna-13b-v1.5-16k | 12k: 1.4 16k: 0.9 1k: 53.4 2k: 29.2 4k: 13.1 6k: 4.3 8k: 2.2 |
| long-context-understanding-on-ada-leval-tsort | LongChat-7b-v1.5-32k | 16k: 2.5 2k: 5.3 4k: 5.0 8k: 3.1 |
| long-context-understanding-on-ada-leval-tsort | Vicuna-7b-v1.5-16k | 16k: 1.7 2k: 5.3 4k: 2.2 8k: 2.3 |
| long-context-understanding-on-ada-leval-tsort | Vicuna-13b-v1.5-16k | 16k: 3.1 2k: 5.4 4k: 5.0 8k: 2.4 |