
摘要
评估大型语言模型(LLMs)在应对多样化任务时的有效性,对于深入理解其优势与局限至关重要。传统的评估方法通常在所有数据集上采用单一的提示策略,未能充分考虑不同任务之间复杂度的差异。为此,本文提出一种分层提示分类法(Hierarchical Prompting Taxonomy, HPT),该分类法基于一个由五个独特提示策略构成的分层提示框架(Hierarchical Prompt Framework, HPF),这些策略按照从最简单到最复杂的顺序排列,从而实现对LLMs更精准的评估,并提供更为清晰的认知视角。该分类法根据其规则,为数据集和LLMs分别赋予一个称为分层提示得分(Hierarchical Prompting Score, HP-Score)的量化指标,能够细致刻画模型在解决多样化任务时的表现能力,同时构建一种通用的任务复杂度度量标准。此外,本文还引入了自适应分层提示框架(Adaptive Hierarchical Prompt framework),可自动为每项任务选择最合适的提示策略,提升评估效率与适应性。本研究通过四个指令微调后的LLM——Llama 3 8B、Phi 3 3.8B、Mistral 7B和Gemma 7B,在四个代表性数据集(BoolQ、CommonSenseQA(CSQA)、IWSLT-2017 en-fr(IWSLT)和SamSum)上,对比分析了人工设定与自适应分层提示框架的性能表现。实验结果验证了HPT的有效性,为不同任务之间的比较以及LLM能力的评估提供了可靠依据。本研究推动了通用评估指标的发展,该指标可用于统一衡量数据集的任务复杂度以及LLM的实际能力。本文所提出的人工分层提示框架(HPF)与自适应分层提示框架均已开源,可供学术界与工业界广泛使用。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arithmetic-reasoning-on-gsm8k | Claude 3.5 Sonnet (HPT) | Accuracy: 97.72 |
| code-generation-on-humaneval | Llama-3 8B (HPT) | Pass@1: 100 |
| code-generation-on-humaneval | Claude 3.5 Sonnet (HPT) | Pass@1: 100 |
| common-sense-reasoning-on-commonsenseqa | GPT-4o (HPT) | Accuracy: 92.54 |
| machine-translation-on-iwslt-2017 | GPT-4o (HPT) | BLEU score: 32 |
| question-answering-on-boolq | Mistral-Nemo 12B (HPT) | Accuracy: 99.87 |
| question-answering-on-boolq | Gemma-7B | Accuracy: 99.419 |
| text-summarization-on-samsum-corpus | GPT-4o (HPT) | ROUGE-L: 30 |
| translation-on-iwslt-2017 | Llama 3 8B | BLEU: 0.23539 |