3 个月前

分层提示分类法:一种通用的大规模语言模型评估框架

分层提示分类法:一种通用的大规模语言模型评估框架

摘要

评估大型语言模型(LLMs)在应对多样化任务时的有效性,对于深入理解其优势与局限至关重要。传统的评估方法通常在所有数据集上采用单一的提示策略,未能充分考虑不同任务之间复杂度的差异。为此,本文提出一种分层提示分类法(Hierarchical Prompting Taxonomy, HPT),该分类法基于一个由五个独特提示策略构成的分层提示框架(Hierarchical Prompt Framework, HPF),这些策略按照从最简单到最复杂的顺序排列,从而实现对LLMs更精准的评估,并提供更为清晰的认知视角。该分类法根据其规则,为数据集和LLMs分别赋予一个称为分层提示得分(Hierarchical Prompting Score, HP-Score)的量化指标,能够细致刻画模型在解决多样化任务时的表现能力,同时构建一种通用的任务复杂度度量标准。此外,本文还引入了自适应分层提示框架(Adaptive Hierarchical Prompt framework),可自动为每项任务选择最合适的提示策略,提升评估效率与适应性。本研究通过四个指令微调后的LLM——Llama 3 8B、Phi 3 3.8B、Mistral 7B和Gemma 7B,在四个代表性数据集(BoolQ、CommonSenseQA(CSQA)、IWSLT-2017 en-fr(IWSLT)和SamSum)上,对比分析了人工设定与自适应分层提示框架的性能表现。实验结果验证了HPT的有效性,为不同任务之间的比较以及LLM能力的评估提供了可靠依据。本研究推动了通用评估指标的发展,该指标可用于统一衡量数据集的任务复杂度以及LLM的实际能力。本文所提出的人工分层提示框架(HPF)与自适应分层提示框架均已开源,可供学术界与工业界广泛使用。

代码仓库

devichand579/HPT
官方
GitHub 中提及

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kClaude 3.5 Sonnet (HPT)
Accuracy: 97.72
code-generation-on-humanevalLlama-3 8B (HPT)
Pass@1: 100
code-generation-on-humanevalClaude 3.5 Sonnet (HPT)
Pass@1: 100
common-sense-reasoning-on-commonsenseqaGPT-4o (HPT)
Accuracy: 92.54
machine-translation-on-iwslt-2017GPT-4o (HPT)
BLEU score: 32
question-answering-on-boolqMistral-Nemo 12B (HPT)
Accuracy: 99.87
question-answering-on-boolqGemma-7B
Accuracy: 99.419
text-summarization-on-samsum-corpusGPT-4o (HPT)
ROUGE-L: 30
translation-on-iwslt-2017Llama 3 8B
BLEU: 0.23539

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分层提示分类法:一种通用的大规模语言模型评估框架 | 论文 | HyperAI超神经