3 个月前

基于MT-Bench与Chatbot Arena的LLM-as-a-Judge评估

基于MT-Bench与Chatbot Arena的LLM-as-a-Judge评估

摘要

由于大语言模型(LLM)具备广泛的能力,而现有评估基准在衡量人类偏好方面存在不足,因此对基于大语言模型的聊天助手进行评估极具挑战性。为应对这一问题,我们探索利用强语言模型作为评判者,对这些模型在更具开放性的问题上的表现进行评估。我们系统分析了“LLM作为评判者”(LLM-as-a-judge)的使用方式及其局限性,包括位置偏差(position bias)、冗长性偏差(verbosity bias)、自我增强偏差(self-enhancement bias)以及推理能力有限等问题,并提出了相应的缓解策略。随后,我们通过引入两个新基准来验证LLM评判者与人类偏好之间的一致性:MT-bench——一个包含多轮对话的问答数据集;以及Chatbot Arena——一个基于众包的模型对抗评测平台。实验结果表明,像GPT-4这样的强LLM评判者能够很好地匹配受控环境和众包环境下的人类偏好,达成超过80%的一致性,其表现水平与人类之间的共识相当。因此,LLM作为评判者是一种可扩展且具备可解释性的方法,能够有效近似原本获取成本极高的真实人类偏好。此外,我们进一步展示了本研究所提出的基准与传统基准之间的互补性,通过在多个LLaMA和Vicuna变体上进行评估得以验证。目前,MT-bench中的3,000份专家投票、30,000条带有真实人类偏好的对话数据均已公开,可访问于:https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge。

代码仓库

opengvlab/multi-modality-arena
pytorch
GitHub 中提及
lm-sys/routellm
pytorch
GitHub 中提及
formulamonks/llm-benchmarker-suite
pytorch
GitHub 中提及
ojiyumm/mt_bench_rwkv
pytorch
GitHub 中提及
lm-sys/fastchat
官方
pytorch
theoremone/llm-benchmarker-suite
pytorch
GitHub 中提及
PAIR-code/llm-comparator
tf
GitHub 中提及
kuk/rulm-sbs2
GitHub 中提及
dongping-chen/mllm-as-a-judge
pytorch
GitHub 中提及
bjoernpl/fasteval
GitHub 中提及

基准测试

基准方法指标
long-context-understanding-on-ada-levalVicuna-7b-v1.5-16k
12k: 1.9
16k: 1.0
1k: 37.0
2k: 11.1
4k: 5.8
6k: 3.2
8k: 1.8
long-context-understanding-on-ada-levalLongChat-7b-v1.5-32k
12k: 1.6
16k: 0.8
1k: 32.4
2k: 10.7
4k: 5.7
6k: 3.1
8k: 1.9
long-context-understanding-on-ada-levalVicuna-13b-v1.5-16k
12k: 1.4
16k: 0.9
1k: 53.4
2k: 29.2
4k: 13.1
6k: 4.3
8k: 2.2
long-context-understanding-on-ada-leval-tsortLongChat-7b-v1.5-32k
16k: 2.5
2k: 5.3
4k: 5.0
8k: 3.1
long-context-understanding-on-ada-leval-tsortVicuna-7b-v1.5-16k
16k: 1.7
2k: 5.3
4k: 2.2
8k: 2.3
long-context-understanding-on-ada-leval-tsortVicuna-13b-v1.5-16k
16k: 3.1
2k: 5.4
4k: 5.0
8k: 2.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于MT-Bench与Chatbot Arena的LLM-as-a-Judge评估 | 论文 | HyperAI超神经